-
公开(公告)号:CN119538900A
公开(公告)日:2025-02-28
申请号:CN202311108038.6
申请日:2023-08-30
Applicant: 中国石油天然气股份有限公司
IPC: G06F40/194 , G06F40/289
Abstract: 本发明公开了一种文本相似度的确定方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文本和待处理文本关联的至少一个参考文本;针对各参考文本,根据待处理文本的第一词分布信息和当前参考文本的第二词分布信息,确定待处理文本中的引用文本;从待处理文本中剔除引用文本得到待查重文本,以及从当前参考文本中剔除与引用文本对应的关联文本,得到待比对文本;基于至少一种相似度算法,确定待查重文本和待比对文本的文本相似度。解决了在待查重的文本中存在引用文本时,由于引用文本导致对待查重的文本的查重结果不准确的问题,通过剔除的引用文本,并对剔除引用文本后的文本进行查重处理,实现得到更加准确的查重结果的效果。