-
公开(公告)号:CN113269258A
公开(公告)日:2021-08-17
申请号:CN202110587195.4
申请日:2021-05-27
Applicant: 郑州大学
Abstract: 针对数据中存在的标签噪声问题,本发明提出一种标签校正框架来检测数据中存在的标签噪声。基于五个真实的UCI数据集和TREC 2007垃圾邮件数据集,本发明技术方案首先人为地向数据集中注入标签噪声;然后利用标签噪声检测框架来标记可疑的样本标签并重新标注噪声样本的标签;最后使用机器学习算法评估了该检测框架的有效性。本发明的关键技术是一种基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL)。该AdaSSL算法首先使用AdaBoost算法将数据集划分为权重较大的样本集和权重较小的样本集;然后使用半监督学习算法重新标记权重较大的样本集合的标签;最后汇总两个集合的样本。AdaSSL防御算法结合了AdaBoost和半监督学习技术的优点,有效地改善了数据集中样本的标签质量,提高了机器学习分类性能。
-
公开(公告)号:CN112700081A
公开(公告)日:2021-04-23
申请号:CN202011347878.4
申请日:2020-11-26
Applicant: 郑州大学
Abstract: 针对数据中存在的标签噪声问题,本发明提出了一种评估朴素贝叶斯分类器对噪声鲁棒性的标签翻转攻击方法。基于垃圾邮件分类领域,本发明技术方案首先收集待分类的电子邮件;对邮件内容进行预处理后使用朴素贝叶斯分类器对邮件进行分类;然后采用标签翻转攻击策略破坏原始数据的概率分布进而影响朴素贝叶斯模型的学习过程,最后在干净数据集上评估标签翻转攻击对朴素贝叶斯分类性能的影响。本发明基于熵的角度提出了一种标签翻转攻击策略,通过破坏朴素贝叶斯的学习过程,有效地降低了垃圾邮件的检出率。
-