一种基于密度和扩展网格的数据流聚类方法

    公开(公告)号:CN107273532A

    公开(公告)日:2017-10-20

    申请号:CN201710509733.1

    申请日:2017-06-28

    Applicant: 济南大学

    CPC classification number: G06F17/30539 G06K9/6223

    Abstract: 本发明涉及一种基于密度和扩展网格的数据流聚类方法,利用Spark并行计算平台,对传统的数据流聚类算法进行了分析和改进,提出了基于密度和扩展网格的数据流聚类算法,改进了人工设置聚类参数的缺陷,可以得到任何形状的聚类,算法基本步骤如下:1、采用每个采样点的局部密度和与其他采样点的距离,确定了网格中的聚类中心数,自动确定聚类中心,避免了初始质心选取不当对聚类结果的影响;2、网格聚类以外的数据点,通过扩展网格,扩展了网格内的聚类,确保了聚类的准确性;3、引入相邻密度估计与网格边界实现网格的合并,节省内存消耗;4、采用衰减因子实时更新网格密度,反应空间数据流的演变过程。

    一种面向流式数据的并行增量式关联规则挖掘方法

    公开(公告)号:CN107229751A

    公开(公告)日:2017-10-03

    申请号:CN201710507953.0

    申请日:2017-06-28

    Applicant: 济南大学

    Abstract: 本发明涉及一种面向流式数据的并行增量式关联规则挖掘方法,对传统静态的关联规则挖掘方法进行了改进,提出了面向动态数据流的并行增量式关联规则提取方法,其基本步骤如下:1、在原事务数据库中,根据数据对象的时序划分层次,将整个事务数据库随机划分成若干个非重叠区域;2、利用并行计算平台挖掘出局部频繁项集,生成全局候选项集,进而计算得到全局频繁项集;3、对新增数据流进行增量挖掘,使用局部剪枝的方法,减少扫描数据集次数,得到增量式全局规则。

Patent Agency Ranking