一种基于密度Canopy的K-means聚类方法

    公开(公告)号:CN111079788A

    公开(公告)日:2020-04-28

    申请号:CN201911127104.8

    申请日:2019-11-18

    Abstract: 本发明公开了一种基于密度Canopy的K-means聚类方法,以密度Canopy聚类作为K-means算法的预处理步骤,通过计算数据集的样本密度、簇内样本平均距离以及簇间距离,选取密度最大样本点为第一类聚类中心,并从数据集中去除初始密度簇;定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,在余下数据集中以权值积最大依次确定聚类中心,直到数据集为空集,并把密度Canopy聚类结果作为K-means的类别数和初始聚类中心,最终进行数据集的聚类分析。选取UCI上的数据集对算法的有效性进行比较验证,结果表明:相比传统K-means算法、基于Canopy的K-means算法、半监督K-means++算法和K-means-u*算法,本发明提出的基于密度Canopy的K-means算法的聚类准确率均有所提高。

Patent Agency Ranking