一种基于Spark的数据处理方法及系统

    公开(公告)号:CN107463595A

    公开(公告)日:2017-12-12

    申请号:CN201710335307.0

    申请日:2017-05-12

    CPC classification number: G06F16/27 G06F16/21 G06F16/25

    Abstract: 本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。

Patent Agency Ranking