-
公开(公告)号:CN113010597B
公开(公告)日:2023-08-01
申请号:CN202110368784.3
申请日:2021-04-06
Applicant: 东北大学
IPC: G06F16/26 , G06F16/2458 , G06F16/182 , G06F18/23213 , G06N3/0464 , G06N3/049
Abstract: 本发明提供一种面向海洋大数据的并行关联规则挖掘方法,包括海洋大数据预处理、海洋数值大数据离散化处理及并行关联规则挖掘三部分,数据离散化采用信息熵结合K‑means的方法,并行关联规则挖掘主要基于改进Apriori算法来完成,即基于Spark并行化Apriori算法,并将事务矩阵引入到了并行处理中,在迭代计算中简化事务矩阵,通过矩阵做逻辑“与”运算得到频繁项集和支持度,通过频繁项集与支持度计算关联规则。在计算过程中仅对该RDD进行操作,而不再扫描原始数据,从而通过内存计算加快了算法处理效率。通过剪枝来简约事务矩阵,减少后续迭代扫描范围和计算量,减少了I/O操作,有效解决了现有方法满足不了海洋大数据关联挖掘分析需求的问题。
-
公开(公告)号:CN113010597A
公开(公告)日:2021-06-22
申请号:CN202110368784.3
申请日:2021-04-06
Applicant: 东北大学
IPC: G06F16/26 , G06F16/2458 , G06F16/182 , G06K9/62 , G06N3/04
Abstract: 本发明提供一种面向海洋大数据的并行关联规则挖掘方法,包括海洋大数据预处理、海洋数值大数据离散化处理及并行关联规则挖掘三部分,数据离散化采用信息熵结合K‑means的方法,并行关联规则挖掘主要基于改进Apriori算法来完成,即基于Spark并行化Apriori算法,并将事务矩阵引入到了并行处理中,在迭代计算中简化事务矩阵,通过矩阵做逻辑“与”运算得到频繁项集和支持度,通过频繁项集与支持度计算关联规则。在计算过程中仅对该RDD进行操作,而不再扫描原始数据,从而通过内存计算加快了算法处理效率。通过剪枝来简约事务矩阵,减少后续迭代扫描范围和计算量,减少了I/O操作,有效解决了现有方法满足不了海洋大数据关联挖掘分析需求的问题。
-