-
公开(公告)号:CN110297960A
公开(公告)日:2019-10-01
申请号:CN201910523201.2
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/951 , G06F16/9538 , G06F16/958
Abstract: 本发明提供了一种基于配置的分布式公文数据采集系统,包括配置校验器、爬虫任务处理器、数据存储器;所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署。本发明具备高效性,通过配置化实现数据实时获取,无需编码,有效提高了公文数据的获取效率;具备可管理性,通过可视化界面对公文模板和获取结果进行展示、统一操作管理,可通过邮件推送功能获取数据结果增量统计,可通过报警监控功能进行问题追踪,便于维护;具备可扩展性,可以根据需要进行水平扩展,实现分布式数据采集;具备数据异构性,爬取海量多数据源的公文数据时,通过Redis作为中间件,屏蔽了数据源和数据存储系统的异构性。