-
公开(公告)号:CN109062899B
公开(公告)日:2021-10-15
申请号:CN201810857156.X
申请日:2018-07-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于词性标注的文档相似性度量方法。本方法为:1)对于两待分析的文档doc1、doc2,使用词性标注工具对文档doc1、doc2进行词性标注,得到文档的词性标签,对词性标签进行编码,得到词性标签向量;2)根据文档doc1、doc2的词性标签分布和单词分布度量两文档doc1、doc2之间的距离;3)根据两文档doc1、doc2之间的距离确定两文档doc1、doc2之间的相似度。本发明使得文本之间的距离度量更加精确,可以被应用在信息检索、文本分类等自然语言处理任务中,能够大大提高文本分类任务的准确率。
-
公开(公告)号:CN107885705B
公开(公告)日:2020-12-15
申请号:CN201710930206.8
申请日:2017-10-09
Applicant: 中国科学院信息工程研究所
IPC: G06F40/126 , G06F16/93
Abstract: 本发明涉及一种高效可扩展的安全的文档相似性计算方法和装置。该方法使用MinHash文档指纹算法将文档表示成固定数量指纹的指纹集合,既可以较好衡量文档间的相似性,又控制了指纹集合的规模;将多个指纹集合存储到multi‑GBF中,不仅可以确定集合元素是否存在,还可以在查找时返回元素的多个来源ID;不经意多来源混淆布隆过滤器交集计算协议可以高效地在两方之间完成安全的文档相似性计算,又不互相暴露自己的私有数据给对方;采用本发明方法计算文档间的相似性的复杂度与文档集合的大小呈线性关系。
-
公开(公告)号:CN109194605B
公开(公告)日:2020-08-25
申请号:CN201810709596.0
申请日:2018-07-02
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种基于开源信息的可疑威胁指标主动验证方法和系统。该方法包括以下步骤:1)设计特定查询语句,所述特定查询语句是可疑威胁指标与特定场景的组合;2)收集和爬取根据所述特定查询语句在互联网上检索得到的结果信息;3)将所述结果信息中的相关开源信息进行结构化处理,得到结构化数据;4)利用所述结构化数据,充分学习其中的隐藏特征,训练相应的分类模型;5)利用所述分类模型验证在特定场景下的可疑威胁指标的恶意性,从而识别网络威胁。该系统包括查询设计模块、信息采集模块、数据处理模块、模型训练模块、指标验证模块。本发明能够高效准确地完成对可疑威胁指标的验证,帮助人们识别高级威胁攻击,保证网络安全。
-
公开(公告)号:CN110825950A
公开(公告)日:2020-02-21
申请号:CN201910911334.7
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06K9/62 , H04L29/08
Abstract: 本发明公开了一种基于元搜索的隐藏服务发现方法,其步骤包括:1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制,并且体现出了良好的效果,提高了隐藏服务发现。
-
公开(公告)号:CN106569997B
公开(公告)日:2019-12-10
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN106776555B
公开(公告)日:2019-11-15
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
公开(公告)号:CN106126654B
公开(公告)日:2019-10-18
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/953 , G06F16/9535 , G06Q50/00
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN110020190A
公开(公告)日:2019-07-16
申请号:CN201810727300.8
申请日:2018-07-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F17/27 , G06N3/04
Abstract: 本发明公开了一种基于多示例学习的可疑威胁指标验证方法及系统。本方法为:对各可疑威胁指标相关的情报信息文本内容进行处理,生成含有原语义信息的词序列;对于每一所述可疑威胁指标,选择该可疑威胁指标对应的多个处理后的词序列,应用多示例学习算法对选取的各所述可疑指标对应的词序列进行训练并生成一多示例学习验证模型;采用自然语言处理技术对待测可疑威胁指标的情报信息文本进行处理,生成该待测可以威胁指标对应的词序列;然后利用所述多示例学习验证模型对该待测可疑威胁指标对应的词序列进行预测验证,确定该待预测可疑威胁指标是否为恶意威胁指标。本发明可高效准确地完成对可疑威胁指标的验证。
-
公开(公告)号:CN105049247B
公开(公告)日:2019-04-26
申请号:CN201510391607.1
申请日:2015-07-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小系统负载,提高运算效率和准确性。
-
公开(公告)号:CN108921184A
公开(公告)日:2018-11-30
申请号:CN201810350028.6
申请日:2018-04-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种通用的网页类型判定方法,其步骤包括:对网页先进行预处理,再抓取该网页的图像;对图像进行规范化处理,包括将图像缩放至可识别其原有视觉块结构的最小程度并统一宽高尺寸;在不破坏图像原有视觉块结构的前提下对图像进行信息增强,得到图像数据集;将上述图像数据集输入到一用于判定网页类型的模型中,对该模型进行训练;通过上述预处理和规范化处理,获取目标网页的图像,将该图像输入到上述经过训练的模型中,判定该目标网页的类型。
-
-
-
-
-
-
-
-
-