-
公开(公告)号:CN102663041B
公开(公告)日:2014-01-01
申请号:CN201210086024.4
申请日:2012-03-28
Applicant: 重庆大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向深层网页面数据自动抽取方法,属于计算机数据挖掘领域,首先获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTMLTidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;然后对页面一和页面二进行清噪处理;将页面一和页面二进行重复模式消除处理后生成网页数据抽取包装器;提取页面时先将待抽取数据的页面进行清噪处理;然后用网页数据抽取包装器先对经过清噪后的页面进行标记,最后抽取标记后的页面,本发明提高了重复模式消除算法和匹配算法的效率,降低了抽取复杂度,该方法中针对重复模式消除算法的特征而设计的匹配算法和抽取算法过程简单快速,同时提高了数据抽取的准确率。
-
公开(公告)号:CN102663041A
公开(公告)日:2012-09-12
申请号:CN201210086024.4
申请日:2012-03-28
Applicant: 重庆大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向深层网页面数据自动抽取方法,属于计算机数据挖掘领域,首先获取同一站点的两个深层网页面,分别标记为页面一和页面二;用HTMLTidy转换工具将页面一和页面二的HTML文档转换为XHTML文档;然后对页面一和页面二进行清噪处理;将页面一和页面二进行重复模式消除处理后生成网页数据抽取包装器;提取页面时先将待抽取数据的页面进行清噪处理;然后用网页数据抽取包装器先对经过清噪后的页面进行标记,最后抽取标记后的页面,本发明提高了重复模式消除算法和匹配算法的效率,降低了抽取复杂度,该方法中针对重复模式消除算法的特征而设计的匹配算法和抽取算法过程简单快速,同时提高了数据抽取的准确率。
-