Patent search ap:("南京邮电大学") AND inv:"赵申屹" Page 1

1.

发明公开
一种基于Spark的并行关联规则增量更新方法无效

公开(公告)号：CN107391621A

公开(公告)日：2017-11-24

申请号：CN201710547080.6

申请日：2017-07-06

Applicant: 南京邮电大学

Inventor： 王诚 , 赵申屹

IPC: G06F17/30

CPC classification number: G06F16/2465 , G06F16/235

Abstract: 本发明公开了一种基于Spark的并行关联规则增量更新方法，主要针对现有增量更新方法在海量数据环境下运行效率低下的问题。该方法的实现步骤为：获取数据集；数据预处理；划分原始数据集与新增数据集；挖掘原始数据集；挖掘新增数据集，整合挖掘结果，获取更新后数据的候选集；挖掘更新后数据集，获取增量更新后的频繁项。本发明相较于传统的关联规则增量方法，更加充分地利用了原始数据集的挖掘结果，大大减少了数据扫描次数，和基于内存的Spark并行计算框架结合，具有良好的挖掘效率和可扩展性。

Patent Agency Ranking