-
公开(公告)号:CN109871897A
公开(公告)日:2019-06-11
申请号:CN201910147977.9
申请日:2019-02-28
Applicant: 桂林理工大学
IPC: G06K9/62
Abstract: 本发明公开了一种海林格距离为参考标准的过采样方法。伪随机选取小类中某一样本点为参考点,采用SMOTE技术合成样本点,在合成样本点过程中,计算参考点所在小类与其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值;将每次产生的样本点单独放入小类中,计算参考点所在小类和其它类的海林格距离,形成海林格距离矩阵,计算海林格距离矩阵列向量的最小值。比较两次海林格距离的最小值,判断合成样本点的质量。本发明能提高新合成样本点的质量,避免样本点重叠问题,达到了在尽可能小的影响其它类的情况下提高新合成样本点质量的目的,适用于在特定二类和多类不平衡数据集下提高过采样技术合成的样本点的拟合性和泛化性。