一种基于词性分类的文本分类方法和系统

    公开(公告)号:CN108763539B

    公开(公告)日:2020-11-10

    申请号:CN201810551315.3

    申请日:2018-05-31

    Inventor: 周可 李兴 曾江峰

    Abstract: 本发明公开了一种基于词性分类的文本分类方法,包括:从网络获取训练文本集和测试文本集,对训练文本集与测试文本集进行预处理,从而获得训练文本集与测试文本集中每一个文本的多个词集,将得到的每个文本的多个词集作为输入对文本主题生成模型LDA进行训练,以得到每个文本在不同主题数目下的文本‑词集‑主题的混合概率分布模型,使用SVM‑train函数对多个文本‑词集‑主题的混合概率分布模型进行分类器训练,以得到多个训练后的分类器,使用多个文本‑词集‑主题的混合概率分布模型作为训练后的分类器的输入进行SVM类别预测。本发明能解决现有方法中存在的训练模型时所需特征词的维度高、分类的准确率低、以及分类器的泛化能力差的技术问题。

    一种基于词性分类的文本分类方法和系统

    公开(公告)号:CN108763539A

    公开(公告)日:2018-11-06

    申请号:CN201810551315.3

    申请日:2018-05-31

    Inventor: 周可 李兴 曾江峰

    Abstract: 本发明公开了一种基于词性分类的文本分类方法,包括:从网络获取训练文本集和测试文本集,对训练文本集与测试文本集进行预处理,从而获得训练文本集与测试文本集中每一个文本的多个词集,将得到的每个文本的多个词集作为输入对文本主题生成模型LDA进行训练,以得到每个文本在不同主题数目下的文本‑词集‑主题的混合概率分布模型,使用SVM‑train函数对多个文本‑词集‑主题的混合概率分布模型进行分类器训练,以得到多个训练后的分类器,使用多个文本‑词集‑主题的混合概率分布模型作为训练后的分类器的输入进行SVM类别预测。本发明能解决现有方法中存在的训练模型时所需特征词的维度高、分类的准确率低、以及分类器的泛化能力差的技术问题。

Patent Agency Ranking