-
公开(公告)号:CN102262635A
公开(公告)日:2011-11-30
申请号:CN201010189998.6
申请日:2010-05-25
Applicant: 北京启明星辰信息技术股份有限公司 , 北京启明星辰信息安全技术有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页爬虫系统及方法,解决现有技术中不能有效提取动态URL的技术缺陷,其中该方法包括:设置一第一去重队列;接收一目标页面;采用静态爬虫对该目标页面进行爬行;将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;将该动态URL提交到该第一去重队列;采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。本发明克服了现有技术中无法有效提取动态URL的技术缺陷,有效提高了网页搜索效率和性能,有利于维护网页的安全应用。