-
公开(公告)号:CN102591976A
公开(公告)日:2012-07-18
申请号:CN201210000918.7
申请日:2012-01-04
Applicant: 复旦大学
Abstract: 本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;本还提出基于句子级别的文档拷贝检测系统,该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统,可以高速准确地找出文档集合中包含部分拷贝的文档对,并定位互为拷贝的范围。