-
公开(公告)号:CN116226557B
公开(公告)日:2024-04-19
申请号:CN202211726541.3
申请日:2022-12-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9538 , G06F16/957 , G06F16/955 , G06F16/35 , G06F40/295 , G06V10/764
Abstract: 本发明公开一种待标注数据的拾取方法、装置、电子设备和存储介质,涉及数据标注领域。所述方法包括:获取用户所参与的标注任务;基于所述标注任务,为所述用户提供用于固定数据的输入格式;在所述用户正在浏览的页面上,突显所述标注任务下的已采集数据,以得到数据捕获区域;通过用户行为确定所述用户在所述数据捕获区域中捕获的网页区域和内容;基于所述输入格式,将所述网页区域和内容传输给数据标注系统。本发明可以精准完成数据获取和格式校验并同步提交到标注系统,大幅提升标注效率。
-
公开(公告)号:CN109194605B
公开(公告)日:2020-08-25
申请号:CN201810709596.0
申请日:2018-07-02
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种基于开源信息的可疑威胁指标主动验证方法和系统。该方法包括以下步骤:1)设计特定查询语句,所述特定查询语句是可疑威胁指标与特定场景的组合;2)收集和爬取根据所述特定查询语句在互联网上检索得到的结果信息;3)将所述结果信息中的相关开源信息进行结构化处理,得到结构化数据;4)利用所述结构化数据,充分学习其中的隐藏特征,训练相应的分类模型;5)利用所述分类模型验证在特定场景下的可疑威胁指标的恶意性,从而识别网络威胁。该系统包括查询设计模块、信息采集模块、数据处理模块、模型训练模块、指标验证模块。本发明能够高效准确地完成对可疑威胁指标的验证,帮助人们识别高级威胁攻击,保证网络安全。
-
公开(公告)号:CN106776555B
公开(公告)日:2019-11-15
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
公开(公告)号:CN106126654B
公开(公告)日:2019-10-18
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/953 , G06F16/9535 , G06Q50/00
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN112651234B
公开(公告)日:2023-11-28
申请号:CN202011502018.3
申请日:2020-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F40/253 , G06F40/30 , G06F40/117 , G06F40/169 , G06F40/247
Abstract: 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留 元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
-
公开(公告)号:CN109194605A
公开(公告)日:2019-01-11
申请号:CN201810709596.0
申请日:2018-07-02
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种基于开源信息的可疑威胁指标主动验证方法和系统。该方法包括以下步骤:1)设计特定查询语句,所述特定查询语句是可疑威胁指标与特定场景的组合;2)收集和爬取根据所述特定查询语句在互联网上检索得到的结果信息;3)将所述结果信息中的相关开源信息进行结构化处理,得到结构化数据;4)利用所述结构化数据,充分学习其中的隐藏特征,训练相应的分类模型;5)利用所述分类模型验证在特定场景下的可疑威胁指标的恶意性,从而识别网络威胁。该系统包括查询设计模块、信息采集模块、数据处理模块、模型训练模块、指标验证模块。本发明能够高效准确地完成对可疑威胁指标的验证,帮助人们识别高级威胁攻击,保证网络安全。
-
公开(公告)号:CN106897264A
公开(公告)日:2017-06-27
申请号:CN201710018100.0
申请日:2017-01-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 本发明涉及一种基于社团划分的无监督复合短语识别方法。该方法包括:1)采用词性标注工具对输入的语料进行词性标注和分词;2)生成科技复合短语的上下文模板,并通过所述上下文模板对分词后的语料进行科技复合短语的预提取;3)将预提取后的文本中的分词序列映射到有序的社团图结构,按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中;4)计算各个社团分段的模块度,并求解不同社团分段的组合的模块度,将整个输入文本的模块度之和最大化;5)验证各社团分段是否包含科技复合短语的特征词,以实现科技复合短语的最终识别。本发明只需少量标注语料,便可以自动识别科技类复合短语,是一种高效的科技类复合短语识别方法。
-
公开(公告)号:CN106776555A
公开(公告)日:2017-05-31
申请号:CN201611129133.4
申请日:2016-12-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。
-
公开(公告)号:CN106168946A
公开(公告)日:2016-11-30
申请号:CN201610474472.X
申请日:2016-06-24
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/2765 , G06F17/30867
Abstract: 本发明提供一种识别用户名缩写现象的方法,步骤包括:1)对两个或两个以上的用户名中的字符进行过滤,仅保留英文字母和数字;2)将上述过滤后的用户名各分割成若干个连续片段,各选取每个片段的首字符组成一新字符串;3)根据上述新字符串获取最长缩写词长度,如长度值大于或等于给定阈值ΔL,则判定所述用户名间具有用户名缩写现象;将保留的英文字母统一转换成小写或大写的形式;所述片段为单词或单个字符;所述片段根据指定的字典分割得到;采用动态规划算法根据所述新字符串获取最长缩写词长度。
-
公开(公告)号:CN107992469A
公开(公告)日:2018-05-04
申请号:CN201710952360.5
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于词序列的钓鱼URL检测方法及系统,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
-
-
-
-
-
-
-
-
-