一种有效链接获取的网页增量抓取方法

    公开(公告)号:CN104794193B

    公开(公告)日:2018-04-03

    申请号:CN201510185493.5

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 有效链接获取的网页增量抓取方法,包括如下步骤:1)有效链接获取阶段:a初始化抓取网页链接,指定抓取入口URL;b判断入口网页链接是否具有分页;c计算入口网页与其分页的公共链接;d通过公共链接获取有效链接;e结束;2)增量抓取阶段:a构建布隆过滤器,并通过布隆过滤器判断步骤1)‑d中有效网页链接是否已经抓取;b通过HTTP请求抓取未抓取的网页;c结束;本发明采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。通过过滤无效链接,避免无效网页的抓取。

    一种有效链接获取的网页增量抓取方法

    公开(公告)号:CN104794193A

    公开(公告)日:2015-07-22

    申请号:CN201510185493.5

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 有效链接获取的网页增量抓取方法,包括如下步骤:1)有效链接获取阶段:a.初始化抓取网页链接,指定抓取入口URL;b.判断入口网页链接是否具有分页;c.计算入口网页与其分页的公共链接;d.通过公共链接获取有效链接;e.结束;2)增量抓取阶段:a.构建布隆过滤器,并通过布隆过滤器判断步骤1)-d中有效网页链接是否已经抓取;b.通过HTTP请求抓取未抓取的网页;c.结束;本发明采用过滤无效链接获取有效的网页链接,并构建布隆过滤器维持已抓取链接集合,通过随机哈希判断网页是否抓取实现增量抓取。通过过滤无效链接,避免无效网页的抓取。

Patent Agency Ranking