-
公开(公告)号:CN111859447A
公开(公告)日:2020-10-30
申请号:CN202010630182.6
申请日:2020-07-03
Applicant: 南京信息职业技术学院
Abstract: 本发明公开了属于Spark大数据处理技术领域的一种带隐私保护的Spark工作流调度方法及系统,能够将带有隐私性的数据放在指定的数据中心进行处理,满足了隐私保护的需求,同时提高了整个Spark工作流的处理效率,减少了执行时间。根据隐私性规则将输入数据分为隐私数据和普通数据;再以分区为单位进行隐私性标记,分为隐私分区和普通分区;将普通分区作为输入的Spark就绪任务调度到普通数据中心处理,得到第一输出数据;将隐私分区作为输入的Spark就绪任务调度到隐私数据中心处理,得到第二输出数据;判断第一输出数据和第二输出数据是最终结果还是中间结果,若是中间结果则重新进行隐私性确认、标记、分区,直至所有Spark就绪队列中的Spark就绪任务全部处理完成。