一种筛选网页上链接的方法和装置

    公开(公告)号:CN101650715A

    公开(公告)日:2010-02-17

    申请号:CN200810071574.2

    申请日:2008-08-12

    Inventor: 陈奋 腾达 吴鸿伟

    Abstract: 本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。

    一种筛选网页上链接的方法和装置

    公开(公告)号:CN101650715B

    公开(公告)日:2011-06-29

    申请号:CN200810071574.2

    申请日:2008-08-12

    Inventor: 陈奋 腾达 吴鸿伟

    Abstract: 本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。

Patent Agency Ranking