-
公开(公告)号:CN118246442A
公开(公告)日:2024-06-25
申请号:CN202311741721.3
申请日:2023-12-18
Applicant: 上海工程技术大学
IPC: G06F40/284 , G06F40/216 , G06F16/35 , G06F16/36
Abstract: 本发明公开了一种用于检索特定信息的计算词间相似度的方法及装置,属于自然语言处理技术领域。获取文本数据集,并将所述文本数据集根据不同主题进行分类,获得子数据集;针对每一个所述子数据集中的文本进行预处理,分类获取所述子数据集的高频关键词;利用预先建立的相似度模型,针对每一个所述子数据集,抽取其高频关键词,两两组合,通过所述相似度模型确定它们之间的相似度。本发明利用自定义的相似度模型计算高频关键词间相似度,该方法扩大了相关词汇的方差,增加了相似度比较的准确性。另外根据得到的针对用户特定需求的关键词集绘制得到实体关系树,使得单次能够检索任意两个词汇,并得到与目标词汇相关联的全部高频词,更为准确迅速。