-
公开(公告)号:CN107330477A
公开(公告)日:2017-11-07
申请号:CN201710605177.8
申请日:2017-07-24
Applicant: 南京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6218 , G06K9/6223
Abstract: 本发明公开了一种针对非均衡数据分类的改进SMOTE再抽样方法。该方法首先用K-Means方法对样本集中的少数类样本进行聚类,并删除聚类后每个类簇质心距离多数类样本最近的噪声样本类,而后在每一个类簇中利用KNN方法将类簇分为三类并删除噪声样本类。最后在每一个类簇中输入一个随机数并根据随机数与类簇中样本集类型的占比关系选择某个样本集进行SMOTE方法过抽样。本发明提出的改进型K-Means-SMOTE方法相比传统SMOTE方法在预测网路电视机顶盒用户的投诉模型中效果显著提高。