-
公开(公告)号:CN111651656A
公开(公告)日:2020-09-11
申请号:CN202010488720.2
申请日:2020-06-02
Applicant: 重庆邮电大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种基于代工模式的动态网页爬虫方法及系统,包括:接收业务信息,配置爬虫参数,业务评估,做准备工作;分配系统资源,发起多个独立进程的业务爬虫;采用模拟浏览器模式,对动态网页原始URL进行爬取,并返回目标静态数据内容的URL;审查URL的有效性和非重复性,并审查后的爬取任务,构造生产任务消息列表,发起多个线程的生产爬虫;采用自动化程序模式,对静态的URL页面进行爬取,并返回目标数据和附件文件;对返回内容处理并存储;导出数据。本发明分别构造了业务爬虫和生产爬虫,基于代工模式对动态网页和静态内容采取不同的爬取策略,最大限度地利用系统资源,实现对动态网页数据进行大规模、快速爬取。
-
公开(公告)号:CN111651656B
公开(公告)日:2023-02-24
申请号:CN202010488720.2
申请日:2020-06-02
Applicant: 重庆邮电大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种基于代工模式的动态网页爬虫方法及系统,包括:接收业务信息,配置爬虫参数,业务评估,做准备工作;分配系统资源,发起多个独立进程的业务爬虫;采用模拟浏览器模式,对动态网页原始URL进行爬取,并返回目标静态数据内容的URL;审查URL的有效性和非重复性,并审查后的爬取任务,构造生产任务消息列表,发起多个线程的生产爬虫;采用自动化程序模式,对静态的URL页面进行爬取,并返回目标数据和附件文件;对返回内容处理并存储;导出数据。本发明分别构造了业务爬虫和生产爬虫,基于代工模式对动态网页和静态内容采取不同的爬取策略,最大限度地利用系统资源,实现对动态网页数据进行大规模、快速爬取。
-