Patent search ap:("重庆邮电大学") AND inv:"刘钟书" Page 1

1.

发明公开
一种基于代工模式的动态网页爬虫方法及系统有权

公开(公告)号：CN111651656A

公开(公告)日：2020-09-11

申请号：CN202010488720.2

申请日：2020-06-02

Applicant: 重庆邮电大学

Inventor： 杨杰 , 程克非 , 吴渝 , 李红波 , 叶雯静 , 刘钟书 , 刘洋旗

IPC: G06F16/951 , G06F16/955

Abstract: 本发明公开了一种基于代工模式的动态网页爬虫方法及系统，包括：接收业务信息，配置爬虫参数，业务评估，做准备工作；分配系统资源，发起多个独立进程的业务爬虫；采用模拟浏览器模式，对动态网页原始URL进行爬取，并返回目标静态数据内容的URL；审查URL的有效性和非重复性，并审查后的爬取任务，构造生产任务消息列表，发起多个线程的生产爬虫；采用自动化程序模式，对静态的URL页面进行爬取，并返回目标数据和附件文件；对返回内容处理并存储；导出数据。本发明分别构造了业务爬虫和生产爬虫，基于代工模式对动态网页和静态内容采取不同的爬取策略，最大限度地利用系统资源，实现对动态网页数据进行大规模、快速爬取。

2.

发明授权
一种基于代工模式的动态网页爬虫方法及系统有权

公开(公告)号：CN111651656B

公开(公告)日：2023-02-24

申请号：CN202010488720.2

申请日：2020-06-02

Applicant: 重庆邮电大学

Inventor： 杨杰 , 程克非 , 吴渝 , 李红波 , 叶雯静 , 刘钟书 , 刘洋旗

IPC: G06F16/951 , G06F16/955

Abstract: 本发明公开了一种基于代工模式的动态网页爬虫方法及系统，包括：接收业务信息，配置爬虫参数，业务评估，做准备工作；分配系统资源，发起多个独立进程的业务爬虫；采用模拟浏览器模式，对动态网页原始URL进行爬取，并返回目标静态数据内容的URL；审查URL的有效性和非重复性，并审查后的爬取任务，构造生产任务消息列表，发起多个线程的生产爬虫；采用自动化程序模式，对静态的URL页面进行爬取，并返回目标数据和附件文件；对返回内容处理并存储；导出数据。本发明分别构造了业务爬虫和生产爬虫，基于代工模式对动态网页和静态内容采取不同的爬取策略，最大限度地利用系统资源，实现对动态网页数据进行大规模、快速爬取。

Patent Agency Ranking