-
公开(公告)号:CN106203530A
公开(公告)日:2016-12-07
申请号:CN201610578874.4
申请日:2016-07-21
Applicant: 长安大学
IPC: G06K9/62
CPC classification number: G06K9/6276 , G06K9/6215
Abstract: 本发明公开了一种面向K近邻算法用于不平衡分布数据的特征权重确定方法,其具体过程是:(1)调入训练样本,若样本描述特征中存在标称属性、二元属性或序数属性特征时,将其转化为数值型特征;(2)对训练样本的各个特征值进行归一化处理;(3)根据数据分布的不平衡程度确定各训练样本的权重系数;(4)计算样本各个特征的综合性能衡量指标;(5)根据各个特征的综合性能衡量指标确定其特征权重。与现有技术相比,本发明可以以更高的计算效率获得更为合理的特征权重,显著提高了K近邻算法对不平衡分布数据的处理能力,对作为关注重点的少数样本表现出良好的识别能力。