-
公开(公告)号:CN109389140A
公开(公告)日:2019-02-26
申请号:CN201710693112.3
申请日:2017-08-14
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62
Abstract: 本发明涉及一种基于Spark的快速寻找聚类中心的方法,涉及计算机信息获取和处理技术。本发明实现了基于Spark的并行CFSFDP聚类算法,利用内存并行计算框架解决了CFSFDP聚类算法处理数据规模小、效率低的问题。基于Spark的并行CFSFDP聚类算法首先通过把两点距离计算分成完全独立的子部分,再将计算结果在汇总服务器上处理分析,然后继续将一系列计算任务切割成独立子任务,汇总到一台服务器上,最终并行计算得到聚类中心,在得到聚类中心后串行计算得到所有数据点的类别。本发明在处理数据中充分发挥了CFSFDP算法的优点,弥补一些常用并行聚类算法的不足。