一种基于大数据模型平台下的细粒度数据溯源方法

    公开(公告)号:CN107239523A

    公开(公告)日:2017-10-10

    申请号:CN201710385468.0

    申请日:2017-05-26

    CPC classification number: G06F17/30575 G06F17/30289 G06F17/30557

    Abstract: 本发明公开了一种基于大数据模型平台下的细粒度数据溯源方法,针对大数据模型平台构建出一种细粒度数据溯源方法,用于解决大数据平台下细粒度溯源数据的依赖区分问题。该方法包括以下步骤:S1:模型工作流分析,在Hadoop平台下对Oozie引擎所构成的模型工作流的分析;S2:细粒度溯源定义,以一种递归的形式表示工作流的细粒度数据溯源;S3:溯源信息捕获,在模型执行过程中,动态地产生并获取溯源信息;S4:溯源标记存储,对捕获的溯源信息以关联形式在HDFS上存储;S5:溯源追踪,用来追溯产生结果数据文件中的细粒度数据项的来源输入数据项。本发明适用性强,为溯源文件建立索引,减少了IO操作,提高了查询速度。

Patent Agency Ranking