-
公开(公告)号:CN103873597B
公开(公告)日:2017-10-10
申请号:CN201410149901.7
申请日:2014-04-15
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明提供了一种分布式网页下载方法和系统,所述方法包括:网络爬虫向任务调度服务单元发送网页下载请求;所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列;上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求,下载相应的网页数据,保存至所述任务调度服务单元的第二消息队列;所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明基于双消息队列的点对点分布式网页下载方式,可利用分散在各处的可上网机器来抓取网页,准实时响应网页下载请求,可有效的突破网站对并发下载请求的限制。
-
公开(公告)号:CN103873597A
公开(公告)日:2014-06-18
申请号:CN201410149901.7
申请日:2014-04-15
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明提供了一种分布式网页下载方法和系统,所述方法包括:网络爬虫向任务调度服务单元发送网页下载请求;所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列;上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求,下载相应的网页数据,保存至所述任务调度服务单元的第二消息队列;所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明基于双消息队列的点对点分布式网页下载方式,可利用分散在各处的可上网机器来抓取网页,准实时响应网页下载请求,可有效的突破网站对并发下载请求的限制。
-