-
公开(公告)号:CN110321925B
公开(公告)日:2022-11-18
申请号:CN201910441282.1
申请日:2019-05-24
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于语义聚合指纹的文本多粒度相似度比对方法,包括以下步骤:词向量表示的训练;语义特征提取;多特征聚合;层级索引构建;相似度计算。本发明联合多维语义相关性进行词向量表示建模,充分挖掘单词间的语义信息,以句子为单位提取特征,采用多权重来表征语义特征,并利用统计学习方法挖掘文本库统计和分布信息,实现对特征空间更精细的划分,再基于多特征聚合生成高辨识度的紧凑文本指纹,有效提高文本指纹的描述能力和区分度;采用自上而下的思想,使用语义聚合指纹指纹和局部语义特征进行文本相似度比对,通过构建层级索引,可快速高效地实现文本从全局到局部的多粒度相似度比对;本方法具有良好的可扩展性。
-
公开(公告)号:CN110321925A
公开(公告)日:2019-10-11
申请号:CN201910441282.1
申请日:2019-05-24
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于语义聚合指纹的文本多粒度相似度比对方法,包括以下步骤:词向量表示的训练;语义特征提取;多特征聚合;层级索引构建;相似度计算。本发明联合多维语义相关性进行词向量表示建模,充分挖掘单词间的语义信息,以句子为单位提取特征,采用多权重来表征语义特征,并利用统计学习方法挖掘文本库统计和分布信息,实现对特征空间更精细的划分,再基于多特征聚合生成高辨识度的紧凑文本指纹,有效提高文本指纹的描述能力和区分度;采用自上而下的思想,使用语义聚合指纹指纹和局部语义特征进行文本相似度比对,通过构建层级索引,可快速高效地实现文本从全局到局部的多粒度相似度比对;本方法具有良好的可扩展性。
-