基于并行改进的K-means算法的大数据文本聚类方法及系统

    公开(公告)号:CN111159406A

    公开(公告)日:2020-05-15

    申请号:CN201911393493.9

    申请日:2019-12-30

    Abstract: 本发明属于文本聚类技术领域,尤其涉及基于并行改进的K-means算法的大数据文本聚类方法及系统,通过Canopy中心点选取算法和K-means基于距离的聚类算法相结合的SWCK-means文本聚类算法处理将低维度的大数据文本数据进行聚类,本发明解决了现有技术存在由于K-means算法没有最优化或局部优化处理,从而导致算法的聚类的准确率和效率低下的问题,具有提高了K-means算法的聚类的准确率和效率、减少文本的维度、提高聚类的效果以及并行化设计的有益技术效果。

Patent Agency Ranking