调度HTTP代理的方法和装置

    公开(公告)号:CN103914568B

    公开(公告)日:2017-05-03

    申请号:CN201410168725.1

    申请日:2014-04-24

    Abstract: 本发明提供了一种调度HTTP代理的方法和装置,该方法包括:接收爬虫请求获得HTTP代理的信息,并根据接收到的信息判定目标URL所属的网站,其中,所述请求获得HTTP代理的信息中包括爬虫将要访问的目标URL;在该爬虫为第一次请求获得HTTP代理的情况下,在所属的网站对应的环形链表中任意选取一个代理节点作为第一代理节点并获取当前时间点;在第一代理节点为第一次被使用的情况下,判定爬虫访问所述标URL需要等待的时长为0;根据上述获取结果及判定结果更新该第一代理节点的数据,并将更新后的数据反馈给爬虫,以便爬虫使用更新后的节点数据访问所述目标URL。该调度HTTP代理的方法,可提高爬虫访问URL的效率,进而提高爬虫抓取网页数据的效率。

    调度HTTP代理的方法和装置

    公开(公告)号:CN103914568A

    公开(公告)日:2014-07-09

    申请号:CN201410168725.1

    申请日:2014-04-24

    CPC classification number: G06F17/30864 H04L67/02

    Abstract: 本发明提供了一种调度HTTP代理的方法和装置,该方法包括:接收爬虫请求获得HTTP代理的信息,并根据接收到的信息判定目标URL所属的网站,其中,所述请求获得HTTP代理的信息中包括爬虫将要访问的目标URL;在该爬虫为第一次请求获得HTTP代理的情况下,在所属的网站对应的环形链表中任意选取一个代理节点作为第一代理节点并获取当前时间点;在第一代理节点为第一次被使用的情况下,判定爬虫访问所述标URL需要等待的时长为0;根据上述获取结果及判定结果更新该第一代理节点的数据,并将更新后的数据反馈给爬虫,以便爬虫使用更新后的节点数据访问所述目标URL。该调度HTTP代理的方法,可提高爬虫访问URL的效率,进而提高爬虫抓取网页数据的效率。

    分布式网页下载方法和系统

    公开(公告)号:CN103873597B

    公开(公告)日:2017-10-10

    申请号:CN201410149901.7

    申请日:2014-04-15

    Abstract: 本发明提供了一种分布式网页下载方法和系统,所述方法包括:网络爬虫向任务调度服务单元发送网页下载请求;所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列;上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求,下载相应的网页数据,保存至所述任务调度服务单元的第二消息队列;所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明基于双消息队列的点对点分布式网页下载方式,可利用分散在各处的可上网机器来抓取网页,准实时响应网页下载请求,可有效的突破网站对并发下载请求的限制。

    分布式网页下载方法和系统

    公开(公告)号:CN103873597A

    公开(公告)日:2014-06-18

    申请号:CN201410149901.7

    申请日:2014-04-15

    Abstract: 本发明提供了一种分布式网页下载方法和系统,所述方法包括:网络爬虫向任务调度服务单元发送网页下载请求;所述任务调度服务单元接收并将上述网页下载请求保存至第一消息队列;上网客户端从所述任务调度服务单元的第一消息队列获取一个网页下载请求,下载相应的网页数据,保存至所述任务调度服务单元的第二消息队列;所述任务调度服务单元将所述第二消息队列中的网页数据返回至请求网页下载的相应网络爬虫。本发明基于双消息队列的点对点分布式网页下载方式,可利用分散在各处的可上网机器来抓取网页,准实时响应网页下载请求,可有效的突破网站对并发下载请求的限制。

Patent Agency Ranking