一种并行化的数据流频繁项集挖掘方法

    公开(公告)号:CN107451290A

    公开(公告)日:2017-12-08

    申请号:CN201710696637.2

    申请日:2017-08-15

    Abstract: 本发明公开了一种并行化的数据流频繁项集挖掘方法,旨在解决现有技术数据挖掘吞吐量小的问题;本申请包括初始化,预挖掘,FP-Stream结构维护,频繁项集生成四部分,算法收集一小段时间内到达的事务,构成一个事务集,第一个事务集被特殊处理,它被用于初始化,以建立f_list和FP-Stream结构,每个事务集触发一轮微批处理。每轮微批处理先进行预挖掘,再进行FP-Stream结构维护,当计算请求到达时,算法利用FP-Growth算法在指定的时间窗口内挖掘FP-Stream结构得到频繁项集;本申请采用的算法增加了系统的整体吞吐量,极大程度提高了数据挖掘的处理速度;本申请适用于数据挖掘相关方面。

    一种并行化的数据流频繁项集挖掘方法

    公开(公告)号:CN107451290B

    公开(公告)日:2020-03-10

    申请号:CN201710696637.2

    申请日:2017-08-15

    Abstract: 本发明公开了一种并行化的数据流频繁项集挖掘方法,旨在解决现有技术数据挖掘吞吐量小的问题;本申请包括初始化,预挖掘,FP‑Stream结构维护,频繁项集生成四部分,算法收集一小段时间内到达的事务,构成一个事务集,第一个事务集被特殊处理,它被用于初始化,以建立f_list和FP‑Stream结构,每个事务集触发一轮微批处理。每轮微批处理先进行预挖掘,再进行FP‑Stream结构维护,当计算请求到达时,算法利用FP‑Growth算法在指定的时间窗口内挖掘FP‑Stream结构得到频繁项集;本申请采用的算法增加了系统的整体吞吐量,极大程度提高了数据挖掘的处理速度;本申请适用于数据挖掘相关方面。

Patent Agency Ranking