-
公开(公告)号:CN117633144A
公开(公告)日:2024-03-01
申请号:CN202311765074.X
申请日:2023-12-20
Applicant: 苏州空天信息研究院
IPC: G06F16/31 , G06F16/33 , G06F40/289
Abstract: 本发明公开一种基于倒排索引的相似文本获取方法,对已有文本建立倒排索引,主要包括文档预处理、构建单词词典、构建倒排列表以及构建倒排索引过程;输入待查询文本,经过预处理后,得到查询词项列表,然后根据BM25计算公式分别计算每个词项在已有文档中的分数,将各个词项的分数加权平均后得到各个文档的最终评分;选取评分靠前的N个文档,与待查询文本进行余弦相似性计算,得到每个文档的相似度值;设定相似度阈值,将相似度值超过阈值的文档作为最终的相似文本结果集进行输出。本发明能够实现相似文本快速而又准确的获取,并且能够适应不同类型的文本数据,应用场景较多。