一种网页爬虫系统及方法

    公开(公告)号:CN102262635A

    公开(公告)日:2011-11-30

    申请号:CN201010189998.6

    申请日:2010-05-25

    Inventor: 肖小剑 李天武

    Abstract: 本发明公开了一种网页爬虫系统及方法,解决现有技术中不能有效提取动态URL的技术缺陷,其中该方法包括:设置一第一去重队列;接收一目标页面;采用静态爬虫对该目标页面进行爬行;将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;将该动态URL提交到该第一去重队列;采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。本发明克服了现有技术中无法有效提取动态URL的技术缺陷,有效提高了网页搜索效率和性能,有利于维护网页的安全应用。

Patent Agency Ranking