-
公开(公告)号:CN107451290A
公开(公告)日:2017-12-08
申请号:CN201710696637.2
申请日:2017-08-15
Applicant: 电子科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种并行化的数据流频繁项集挖掘方法,旨在解决现有技术数据挖掘吞吐量小的问题;本申请包括初始化,预挖掘,FP-Stream结构维护,频繁项集生成四部分,算法收集一小段时间内到达的事务,构成一个事务集,第一个事务集被特殊处理,它被用于初始化,以建立f_list和FP-Stream结构,每个事务集触发一轮微批处理。每轮微批处理先进行预挖掘,再进行FP-Stream结构维护,当计算请求到达时,算法利用FP-Growth算法在指定的时间窗口内挖掘FP-Stream结构得到频繁项集;本申请采用的算法增加了系统的整体吞吐量,极大程度提高了数据挖掘的处理速度;本申请适用于数据挖掘相关方面。
-
公开(公告)号:CN107451290B
公开(公告)日:2020-03-10
申请号:CN201710696637.2
申请日:2017-08-15
Applicant: 电子科技大学
IPC: G06F16/2455 , G06F16/2458
Abstract: 本发明公开了一种并行化的数据流频繁项集挖掘方法,旨在解决现有技术数据挖掘吞吐量小的问题;本申请包括初始化,预挖掘,FP‑Stream结构维护,频繁项集生成四部分,算法收集一小段时间内到达的事务,构成一个事务集,第一个事务集被特殊处理,它被用于初始化,以建立f_list和FP‑Stream结构,每个事务集触发一轮微批处理。每轮微批处理先进行预挖掘,再进行FP‑Stream结构维护,当计算请求到达时,算法利用FP‑Growth算法在指定的时间窗口内挖掘FP‑Stream结构得到频繁项集;本申请采用的算法增加了系统的整体吞吐量,极大程度提高了数据挖掘的处理速度;本申请适用于数据挖掘相关方面。
-