-
公开(公告)号:CN114610975A
公开(公告)日:2022-06-10
申请号:CN202210420459.1
申请日:2022-04-20
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951 , G06F16/958 , G06F9/445 , G06F9/4401 , G06F9/50
Abstract: 本公开公开一种网页爬取方法、装置、计算设备及存储介质,该方法包括:创建爬取队列,从消息队列中获取网页地址并将所述网页地址放入所述爬取队列中;启动爬虫进程,并通过所述爬虫进程启动浏览器对象,所述爬虫进程由至少一个线程执行;控制所述线程所对应的协程从所述爬取队列中获取所述网页地址,以使用所述网页地址发起访问请求,且在所述协程所发起的访问请求等待响应时挂起所述协程,所述线程切换执行未挂起的协程以发起新的访问请求或处理请求返回的响应。根据本公开实施例可以有效提高处理器和带宽利用率,降低系统资源消耗。