一种可插拔分布式公文自动化清洗系统

    公开(公告)号:CN111966672B

    公开(公告)日:2024-11-29

    申请号:CN202010825586.0

    申请日:2020-08-17

    Abstract: 本发明提供了一种可插拔分布式公文自动化清洗系统,包括参数校验器、插件组合器、任务调度器;所述参数校验器获取动态传递的配置参数;所述插件组合器根据配置选择读入数据的字段并调用清洗项插件,对数据做转换。本发明便于平台化,可部署到数据中心,作为一个数据清洗平台,数据处理人员可以根据配置达到数据清洗的目的;具备通用性,可以读取多种来源的数据,并进行各种不同形式的转换、转换完后可以以不同的形式输出到不同的位置、通过配置就可以完成;均有高效性,底层为分布式系统,对大规模数据集也有很好的数据处理能力;富有扩展性,当系统的插件无法完成需要的清洗功能时,可以自己开发插件并集成到系统中,完成特定的清洗功能。

    一种可插拔分布式公文自动化清洗系统

    公开(公告)号:CN111966672A

    公开(公告)日:2020-11-20

    申请号:CN202010825586.0

    申请日:2020-08-17

    Abstract: 本发明提供了一种可插拔分布式公文自动化清洗系统,包括参数校验器、插件组合器、任务调度器;所述参数校验器获取动态传递的配置参数;所述插件组合器根据配置选择读入数据的字段并调用清洗项插件,对数据做转换。本发明便于平台化,可部署到数据中心,作为一个数据清洗平台,数据处理人员可以根据配置达到数据清洗的目的;具备通用性,可以读取多种来源的数据,并进行各种不同形式的转换、转换完后可以以不同的形式输出到不同的位置、通过配置就可以完成;均有高效性,底层为分布式系统,对大规模数据集也有很好的数据处理能力;富有扩展性,当系统的插件无法完成需要的清洗功能时,可以自己开发插件并集成到系统中,完成特定的清洗功能。

Patent Agency Ranking