-
公开(公告)号:CN104063472A
公开(公告)日:2014-09-24
申请号:CN201410305607.0
申请日:2014-06-30
Applicant: 电子科技大学
CPC classification number: G06F17/30705
Abstract: 本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。
-
公开(公告)号:CN104063472B
公开(公告)日:2017-02-15
申请号:CN201410305607.0
申请日:2014-06-30
Applicant: 电子科技大学
Abstract: 本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。
-