-
公开(公告)号:CN106844309A
公开(公告)日:2017-06-13
申请号:CN201710045445.5
申请日:2017-01-22
Applicant: 北京邮电大学
IPC: G06F17/22
CPC classification number: G06F17/2211
Abstract: 本发明实施例提供一种基于签名压缩机制的近似重复文本检测方法及装置,包括:确定当前检测文档x和y;获得所述当前检测文档x和y的签名压缩长度:C(sig(x))和C(sig(y));将所述签名压缩长度C(sig(x))和C(sig(y))代入标准化压缩距离公式,计算出基于签名的标准化压缩距离值;根据基于签名的标准化压缩距离值,得到所述当前检测文档x和y是否为近似重复文档的比较结果。提高了近似重复文档的检测速度。