-
公开(公告)号:CN107391621A
公开(公告)日:2017-11-24
申请号:CN201710547080.6
申请日:2017-07-06
Applicant: 南京邮电大学
IPC: G06F17/30
CPC classification number: G06F16/2465 , G06F16/235
Abstract: 本发明公开了一种基于Spark的并行关联规则增量更新方法,主要针对现有增量更新方法在海量数据环境下运行效率低下的问题。该方法的实现步骤为:获取数据集;数据预处理;划分原始数据集与新增数据集;挖掘原始数据集;挖掘新增数据集,整合挖掘结果,获取更新后数据的候选集;挖掘更新后数据集,获取增量更新后的频繁项。本发明相较于传统的关联规则增量方法,更加充分地利用了原始数据集的挖掘结果,大大减少了数据扫描次数,和基于内存的Spark并行计算框架结合,具有良好的挖掘效率和可扩展性。