-
公开(公告)号:CN117874318A
公开(公告)日:2024-04-12
申请号:CN202410057127.0
申请日:2024-01-15
Applicant: 安徽大学
IPC: G06F16/951 , G06F9/455 , G06N3/045 , G06N3/092 , G06N3/09
Abstract: 本发明涉及数据爬取技术领域,更具体的,涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明预先构建了两个Docker容器,其中一个安装了浏览器程序、爬虫程序、守护进程,另一个用于存放及更新Actor‑Critic模型;本发明基于强化学习的方式对Actor‑Critic模型进行训练,使Actor‑Critic模型可以适应于目标网页的结构变化,自动学习到新的爬取流程,减少去修改爬虫程序代码的人力成本。本发明解决了现有的数据采集不能够自适应网页结构变化的问题。