一种改进C4.5决策树算法下的不平衡数据抽样方法

    公开(公告)号:CN105373606A

    公开(公告)日:2016-03-02

    申请号:CN201510772750.5

    申请日:2015-11-11

    CPC classification number: G06F16/35 G06F16/285

    Abstract: 本发明涉及一种改进C4.5决策树算法下的不平衡数据抽样方法,首先根据各类样本数量确定各个样本的初始权重,然后每轮通过改进C4.5决策树算法的训练结果对各样本的权重进行修改,改进的C4.5算法的分裂标准兼顾信息增益率和误分样本权重,经过T轮迭代后得到各样本的最终权重,最后根据样本权重找出位于少数类边界区域与多数类中心区域的样本,并使用SMOTE算法对少数类边界区域的样本进行过抽样,按权重抽样方法对多数类样本进行欠抽样,使中心区域的样本更易被选中,以改善不同类数据的平衡度,提高少数类和数据集整体的识别率。本发明通过改进的C4.5决策树算法进行权重修改,并根据样本权重有针对性地进行过抽样和欠抽样处理,有效地避免了分类器过拟合和丢失多数类有用信息等现象。

Patent Agency Ranking