一种优化训练样本集的KNN文本分类方法

    公开(公告)号:CN104063472A

    公开(公告)日:2014-09-24

    申请号:CN201410305607.0

    申请日:2014-06-30

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。

    一种优化训练样本集的KNN文本分类方法

    公开(公告)号:CN104063472B

    公开(公告)日:2017-02-15

    申请号:CN201410305607.0

    申请日:2014-06-30

    Abstract: 本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。

Patent Agency Ranking