一种基于Spark的并行关联规则增量更新方法

    公开(公告)号:CN107391621A

    公开(公告)日:2017-11-24

    申请号:CN201710547080.6

    申请日:2017-07-06

    Inventor: 王诚 赵申屹

    CPC classification number: G06F16/2465 G06F16/235

    Abstract: 本发明公开了一种基于Spark的并行关联规则增量更新方法,主要针对现有增量更新方法在海量数据环境下运行效率低下的问题。该方法的实现步骤为:获取数据集;数据预处理;划分原始数据集与新增数据集;挖掘原始数据集;挖掘新增数据集,整合挖掘结果,获取更新后数据的候选集;挖掘更新后数据集,获取增量更新后的频繁项。本发明相较于传统的关联规则增量方法,更加充分地利用了原始数据集的挖掘结果,大大减少了数据扫描次数,和基于内存的Spark并行计算框架结合,具有良好的挖掘效率和可扩展性。

Patent Agency Ranking