-
公开(公告)号:CN101650715A
公开(公告)日:2010-02-17
申请号:CN200810071574.2
申请日:2008-08-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/30
Abstract: 本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。
-
公开(公告)号:CN101650715B
公开(公告)日:2011-06-29
申请号:CN200810071574.2
申请日:2008-08-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/30
Abstract: 本发明实施方式提供了一种筛选网页上链接的方法,包括:从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。
-