-
公开(公告)号:CN106570179B
公开(公告)日:2019-11-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN106127222B
公开(公告)日:2019-06-04
申请号:CN201610420846.X
申请日:2016-06-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。
-
公开(公告)号:CN108959242A
公开(公告)日:2018-12-07
申请号:CN201810431801.1
申请日:2018-05-08
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/278 , G06K9/6256
Abstract: 本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。
-
公开(公告)号:CN104375982A
公开(公告)日:2015-02-25
申请号:CN201410564469.8
申请日:2014-10-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种确定文本视觉相似度的方法,实现步骤如下:(1)计算两个字符串直接的视觉距离;(2)计算两个字符串直接相似度;(3)将以前发邮件记录中的邮件记录最大值与当前电子邮件的最大值作为分类器的特征,来检测特定字符串即电子邮件地址的相似度;(4)将利用随机森林分类器对误发送邮件进行分类训练和检测,以用于检测误发邮件。本发明达到了比传统的检测技术更高的准确率和召回率。
-
公开(公告)号:CN105913094B
公开(公告)日:2019-06-21
申请号:CN201610286111.2
申请日:2016-05-03
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串。本方法大大提高了查找效率。
-
公开(公告)号:CN107992469A
公开(公告)日:2018-05-04
申请号:CN201710952360.5
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于词序列的钓鱼URL检测方法及系统,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
-
公开(公告)号:CN107301167A
公开(公告)日:2017-10-27
申请号:CN201710378496.X
申请日:2017-05-25
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种功性能描述信息识别方法及装置,该方法步骤包括:1)将测试文本按句子切分,过滤句子中包含的噪音;2)根据功性能描述性句子词典对从步骤1)得到的句子进行关键字匹配,过滤无关句子,得到功性能描述性句子候选集合;3)对上述功性能描述性句子候选集合中的功性能描述性句子进行分词,查询词向量表得到句子的向量表示,再输入神经网络模型进行分类,得到句子的分类标签;4)根据上述句子的分类标签,结合句子位置信息,得到文本识别结果。本发明方法及装置能够实现对未知文本尤其是包含大量噪音的网络文本中功性能描述片段的大规模自动识别,从而解决面向情报挖掘的功性能描述信息识别问题。
-
公开(公告)号:CN106570179A
公开(公告)日:2017-04-19
申请号:CN201610991857.3
申请日:2016-11-10
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。
-
公开(公告)号:CN106126654A
公开(公告)日:2016-11-16
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN105913094A
公开(公告)日:2016-08-31
申请号:CN201610286111.2
申请日:2016-05-03
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
CPC classification number: G06K9/6215
Abstract: 本发明公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串。本方法大大提高了查找效率。
-
-
-
-
-
-
-
-
-