-
公开(公告)号:CN108596199A
公开(公告)日:2018-09-28
申请号:CN201711469484.4
申请日:2017-12-29
Applicant: 北京交通大学
IPC: G06K9/62
CPC classification number: G06K9/6257 , G06K9/6267
Abstract: 本发明提供了一种基于EasyEnsemble算法和SMOTE算法的极度不均衡数据分类方法。主要步骤为:先用SMOTE算法构造多个少数类子集,增加少数类样本;然后对多数类进行随机欠采样,合并各多数类子集和少数类子集,获得多个样本比例一定的训练子集;再对每个训练子集进行降噪处理;然后分别用降噪后的训练子集训练一个AdaBoost分类器;最后集成所有AdaBoost分类器,得到最终的分类器。本发明通过SMOTE算法解决少数类样本欠缺问题,并结合随机欠采样改变样本不均衡状态。同时利用降噪技术,提高新数据集的可靠性,平滑分类边界,并利用集成方法减少多数类信息损失,提高分类器性能。