-
公开(公告)号:CN106599122A
公开(公告)日:2017-04-26
申请号:CN201611091669.1
申请日:2016-12-01
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,属于数据挖掘领域,该方法采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列;再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可缩短挖掘时间;本发明提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度;本发明采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法;充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本方法获得较高的加速比。
-
公开(公告)号:CN106599122B
公开(公告)日:2019-12-31
申请号:CN201611091669.1
申请日:2016-12-01
Applicant: 东北大学
IPC: G06F16/2458
Abstract: 本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,属于数据挖掘领域,该方法采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列;再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可缩短挖掘时间;本发明提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度;本发明采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法;充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本方法获得较高的加速比。
-