网络搜索中的基于链接层次分类的主题爬取方法

    公开(公告)号:CN100461184C

    公开(公告)日:2009-02-11

    申请号:CN200710118591.2

    申请日:2007-07-10

    Applicant: 北京大学

    Inventor: 张铭 周毅 江云亮

    Abstract: 本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。

    网络搜索中的基于链接层次分类的主题爬取方法

    公开(公告)号:CN101101601A

    公开(公告)日:2008-01-09

    申请号:CN200710118591.2

    申请日:2007-07-10

    Applicant: 北京大学

    Inventor: 张铭 周毅 江云亮

    Abstract: 本发明公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。

Patent Agency Ranking