-
公开(公告)号:CN107273532A
公开(公告)日:2017-10-20
申请号:CN201710509733.1
申请日:2017-06-28
Applicant: 济南大学
CPC classification number: G06F17/30539 , G06K9/6223
Abstract: 本发明涉及一种基于密度和扩展网格的数据流聚类方法,利用Spark并行计算平台,对传统的数据流聚类算法进行了分析和改进,提出了基于密度和扩展网格的数据流聚类算法,改进了人工设置聚类参数的缺陷,可以得到任何形状的聚类,算法基本步骤如下:1、采用每个采样点的局部密度和与其他采样点的距离,确定了网格中的聚类中心数,自动确定聚类中心,避免了初始质心选取不当对聚类结果的影响;2、网格聚类以外的数据点,通过扩展网格,扩展了网格内的聚类,确保了聚类的准确性;3、引入相邻密度估计与网格边界实现网格的合并,节省内存消耗;4、采用衰减因子实时更新网格密度,反应空间数据流的演变过程。
-
公开(公告)号:CN107229751A
公开(公告)日:2017-10-03
申请号:CN201710507953.0
申请日:2017-06-28
Applicant: 济南大学
IPC: G06F17/30
CPC classification number: G06F17/30516 , G06F17/30445 , G06F17/30539 , G06F2216/03
Abstract: 本发明涉及一种面向流式数据的并行增量式关联规则挖掘方法,对传统静态的关联规则挖掘方法进行了改进,提出了面向动态数据流的并行增量式关联规则提取方法,其基本步骤如下:1、在原事务数据库中,根据数据对象的时序划分层次,将整个事务数据库随机划分成若干个非重叠区域;2、利用并行计算平台挖掘出局部频繁项集,生成全局候选项集,进而计算得到全局频繁项集;3、对新增数据流进行增量挖掘,使用局部剪枝的方法,减少扫描数据集次数,得到增量式全局规则。
-