-
公开(公告)号:CN113779540A
公开(公告)日:2021-12-10
申请号:CN202110943612.4
申请日:2021-08-17
Applicant: 广东融合通信股份有限公司
Abstract: 本发明公开了基于RPA的企业公示信息数据采集方法,通过分析目标网站的页面元素信息,获取数据采集所需的关键XPath,构建训练yolo目标检测网络模型和孪生网络模型,RPA通过所述yolo目标检测网络模型和孪生网络模型识别匹配验证码图片中的小图标和大图标信息,并点选通过验证,根据获取的关键XPath在目标网站的页面进行输入和点击操作,读取目标企业的页面元素内容并保存到本地txt文件。本发明模拟人工的操作方式来获取企业公示信息,实现友好访问目标网站、操作简单;将手工查询公示网站获取企业信息的工作方式变为系统自动执行搜索、验证码识别与数据拉取的工作方式,提高数据采集效率;模拟人工的网页操作,形成与目标网站的友好且健康交互。