基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法

    公开(公告)号:CN108596199A

    公开(公告)日:2018-09-28

    申请号:CN201711469484.4

    申请日:2017-12-29

    CPC classification number: G06K9/6257 G06K9/6267

    Abstract: 本发明提供了一种基于EasyEnsemble算法和SMOTE算法的极度不均衡数据分类方法。主要步骤为:先用SMOTE算法构造多个少数类子集,增加少数类样本;然后对多数类进行随机欠采样,合并各多数类子集和少数类子集,获得多个样本比例一定的训练子集;再对每个训练子集进行降噪处理;然后分别用降噪后的训练子集训练一个AdaBoost分类器;最后集成所有AdaBoost分类器,得到最终的分类器。本发明通过SMOTE算法解决少数类样本欠缺问题,并结合随机欠采样改变样本不均衡状态。同时利用降噪技术,提高新数据集的可靠性,平滑分类边界,并利用集成方法减少多数类信息损失,提高分类器性能。

Patent Agency Ranking