-
公开(公告)号:CN118261138A
公开(公告)日:2024-06-28
申请号:CN202410341765.5
申请日:2024-03-25
Applicant: 中国能源建设集团云南省电力设计院有限公司
IPC: G06F40/194 , G06F40/30 , G06F40/205 , G06F40/289 , G06F18/22 , G06N3/0464
Abstract: 本发明涉及一种基于结构相似性和语义相似性的多维度文本查重方法,提供的查重方法同时结合了结构相似性查询对细粒度特征具有较好的适应性和语义相似性查询对捕获文本全局语义信息具有强表示性和对处理复杂无序文本能力强的优势,构建了一种多维度互补结构的文本相似度查询方法。该方法首先通过依赖解析器计算查重文本的相似度并进一步提取文本的结构相似性内容,同时引入了机器学习方法对查重文本进行建模提取文本的语义信息,并进行余弦相似度计算提取文本语义相似性内容。最后,将提取出来的结构相似性内容和语义相似性内容进行循环对比,并将判别结果以可下载文本的方式反馈给用户。