一种基于SVM的非平衡大规模数据集的训练方法

    公开(公告)号:CN118094223A

    公开(公告)日:2024-05-28

    申请号:CN202410209446.9

    申请日:2024-02-26

    Applicant: 三峡大学

    Abstract: 本发明提供了一种基于SVM的非平衡大规模数据集的训练方法,该方法使用多次降采样及并行支持向量机即SVM的方式解决了大规模非平衡二分类数据集训练速度慢、模型性能低的问题;首先,对数据集进行分类,并找出少数类数据集与多数类数据集,再将少数类数据集保留,多次向多数类数据集进行无放回的随机采样,采样次数为少数类数据集总数,最终将采样得到的数据集和少数类数据集组成多份平衡数据集;其次,将各个平衡数据集分别输入到集群中的各个节点的支持向量机模型(SVM)中进行模型训练;最后,各个节点将输出各自训练的模型,以投票法预测测试样本数据结果,可以在同规模数据量情况下大幅度提模型升训练效率,并少量提升模型性能。

Patent Agency Ranking