-
公开(公告)号:CN109272056B
公开(公告)日:2021-09-21
申请号:CN201811280097.0
申请日:2018-10-30
Applicant: 成都信息工程大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关‑最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
-
公开(公告)号:CN109272056A
公开(公告)日:2019-01-25
申请号:CN201811280097.0
申请日:2018-10-30
Applicant: 成都信息工程大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关-最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
-
公开(公告)号:CN110969260A
公开(公告)日:2020-04-07
申请号:CN201911007816.6
申请日:2019-10-22
Applicant: 成都信息工程大学 , 泸州市城投智慧科技发展有限责任公司
Inventor: 乔少杰 , 刘定祥 , 孙科 , 韩楠 , 魏军林 , 张永清 , 许源平 , 彭珍妮 , 王伟 , 元昌安 , 冉先进 , 范勇强 , 彭京 , 周凯 , 黄萍 , 郑皎凌 , 何晓曦 , 李斌勇 , 覃晓 , 张吉烈
Abstract: 本发明涉及机器学习技术领域,提供了一种不平衡数据过采样方法,基于三角形重心特点,包括:S1、获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点;S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列;S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本;S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2-S4,得到与负样本数量相平衡的正样本数量;通过上述方法,本发明解决了机器学习中的过拟合现象。
-
-