-
公开(公告)号:CN107239791A
公开(公告)日:2017-10-10
申请号:CN201710335523.5
申请日:2017-05-12
Applicant: 东北大学
IPC: G06K9/62
CPC classification number: G06K9/6223
Abstract: 本发明公开了一种基于LSH的高维K‑means聚类中心优选方法,首先对文本数据集进行归一化处理,对归一化后的数据进行hash映射,降维成M维(M为hash函数的个数),假设生成N个桶,每个桶中都会落入一些原始数据,对这N个桶进行K‑means聚类,得到K个桶中心,计算桶中数据的平均值作为原始数据集的初始中心点,对原始中心点进行K‑means聚类。1.对高维数据集能进行有效的降维处理;2.通过LSH方法选取中心点,提高了K‑means聚类的准确度。使K‑means聚类的结果NMI值趋于一个稳定的范围。