一种海量数据频繁项集挖掘方法

    公开(公告)号:CN110222090A

    公开(公告)日:2019-09-10

    申请号:CN201910477465.9

    申请日:2019-06-03

    Abstract: 本发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;扫描原始事务数据集TO,对应计算上述所获得的每个局部频繁项集在原始事务数据集TO上的支持度计数,对所获得的局部频繁项集进行过滤,获取支持度不小于ω的各局部频繁项集,并将所获取的各局部频繁项集及计算所得的对应的支持度计数对应写入文件Fqf中;读取新增事务数据集TΔ,并判断新增事务数据集TΔ是否为空,之后基于新增事务数据集TΔ是否为空进行频繁项集挖掘。本发明在整个挖掘过程中复用了文件Fqf、集合STCAD和数组cntΔ,一定程度上减少了计算开销,从而可提高频繁项集的挖掘速率。

Patent Agency Ranking