基于句号特征字串的中文网页重复文档检测和过滤方法

    公开(公告)号:CN102945244A

    公开(公告)日:2013-02-27

    申请号:CN201210359942.X

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法,包括如下步骤:提取待检测网页的句号特征字串;利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容;计算所述网页主题文本内容的相似度,判定网页之间的重复关系和包含关系;将具有重复关系和包含关系的网页进行聚类。本发明针对中文网页,尤其是中文新闻网页,首先寻找有效的检测特征,能有效检测出网页上的有效正文部分,过滤掉网页上的广告等与主题正文内容无关的噪音部分;在此基础上,解决两两文档之间的相似性度量问题以及文档重复检测问题;最后解决大规模重复文档检测时的并行化处理问题。

Patent Agency Ranking