一种大规模分布式函数依赖发现方法

    公开(公告)号:CN108595624A

    公开(公告)日:2018-09-28

    申请号:CN201810367758.7

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种大规模分布式函数依赖发现方法,包括以下步骤:第一步,并行地获取数据集的统计信息、对属性进行排序和对数据进行分布式编码;第二步,依次选取属性,将在该属性上取值相同的数据发送到同一个节点上;第三步,在每个节点上进行候选函数依赖发现。该过程可以分为以下两步:第一步,并行地进行采样,利用采样结果对候选集进行剪枝和生成;第二步,并行地对候选集进行验证,利用验证结果对候选集进行剪枝和生成。每轮采样和验证结束后均需根据其效率来决定是否进行采样和验证的切换。第四步,生成函数依赖结果。本发明可高效地实现分布式函数依赖发现,解决现有函数依赖求解方法计算量大、内存占用多、无法处理大规模数据集等问题。

Patent Agency Ranking