-
公开(公告)号:CN110297960A
公开(公告)日:2019-10-01
申请号:CN201910523201.2
申请日:2019-06-17
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/951 , G06F16/9538 , G06F16/958
Abstract: 本发明提供了一种基于配置的分布式公文数据采集系统,包括配置校验器、爬虫任务处理器、数据存储器;所述配置校验器、爬虫任务处理器、数据存储器由上至下逐层部署。本发明具备高效性,通过配置化实现数据实时获取,无需编码,有效提高了公文数据的获取效率;具备可管理性,通过可视化界面对公文模板和获取结果进行展示、统一操作管理,可通过邮件推送功能获取数据结果增量统计,可通过报警监控功能进行问题追踪,便于维护;具备可扩展性,可以根据需要进行水平扩展,实现分布式数据采集;具备数据异构性,爬取海量多数据源的公文数据时,通过Redis作为中间件,屏蔽了数据源和数据存储系统的异构性。
-
公开(公告)号:CN110147362A
公开(公告)日:2019-08-20
申请号:CN201910271964.2
申请日:2019-04-04
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/215 , G06F16/951 , G06F16/9535
Abstract: 本发明公开了一种基于事件驱动的公文数据采集和处理系统及其方法,属于大数据技术领域,包括:数据采集服务模块,数据清洗服务模块,数据抽取计算服务模块,数据索引服务模块,日志模块;其采集和处理方法包括:分布式数据采集方式中的分布式爬虫抓取发布在网站上的公文数据,发送给数据采集服务模块处理,在通过数据抽取计算服务模块进行抽取计算,然后通过数据索引服务模块入库存放于数据库中,日志模块记录整个采集与处理过程。本发明采用分布式爬虫进行各个公文发布网站进行抓取,有效解决海量多源异构公文数据的采集和处理时效问题。
-