-
公开(公告)号:CN102004805A
公开(公告)日:2011-04-06
申请号:CN201010618360.X
申请日:2010-12-30
Applicant: 上海交通大学
IPC: G06F17/30
Abstract: 一种互联网技术领域的基于最大相似性匹配的网页去噪系统及其去噪方法,该系统包括:网页获取模块、预处理模块、网页DOM生成特征树模块、特征树最大相似性匹配模块和聚集评价模块,网页获取模块与预处理模块相连并传输网页代码数据,预处理模块与网页获取模块相连并传输预处理后的目标网页,预处理模块与网页DOM生成特征树模块相连并传输预处理后的网页数据,网页DOM生成特征树模块与特征树最大相似性匹配模块相连并传输特征树数据,特征树最大相似性匹配模块与聚集评价模块相连并传输网页内容块候选集,最后聚集评价模块输出网页内容块。本发明能够很好适用于大多数内容型网站。
-
公开(公告)号:CN102004805B
公开(公告)日:2013-06-19
申请号:CN201010618360.X
申请日:2010-12-30
Applicant: 上海交通大学
IPC: G06F17/30
Abstract: 一种互联网技术领域的基于最大相似性匹配的网页去噪系统及其去噪方法,该系统包括:网页获取模块、预处理模块、网页DOM生成特征树模块、特征树最大相似性匹配模块和聚集评价模块,网页获取模块与预处理模块相连并传输网页代码数据,预处理模块与网页获取模块相连并传输预处理后的目标网页,预处理模块与网页DOM生成特征树模块相连并传输预处理后的网页数据,网页DOM生成特征树模块与特征树最大相似性匹配模块相连并传输特征树数据,特征树最大相似性匹配模块与聚集评价模块相连并传输网页内容块候选集,最后聚集评价模块输出网页内容块。本发明能够很好适用于大多数内容型网站。
-