-
公开(公告)号:CN104537067A
公开(公告)日:2015-04-22
申请号:CN201410839779.6
申请日:2014-12-30
Applicant: 广东电网有限责任公司信息中心
IPC: G06F17/30
CPC classification number: G06F17/30598
Abstract: 本发明公开了一种基于k-means聚类的分箱方法,包括以下步骤:对连续变量进行预处理;对预处理后的数据进行归一化处理;将归一化处理过的数据,应用k-means聚类算法,划分为多个区间:采用等距法设定k-means聚类算法的初始中心,得到聚类中心;在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点,将各个对象加入到距离最近的类中,从而将数据划分为多个区间;重新计算每个聚类中心,然后重新划分数据,直到每个聚类中心不再变化,得到最终的聚类结果。本发明解决了现有分箱方法对于数据密度分布偏向明显的数据集容易造成误差的技术问题,k-means聚类算法在选取初始中心时不再是随机选取,数据分箱结果准确。