-
公开(公告)号:CN108763539B
公开(公告)日:2020-11-10
申请号:CN201810551315.3
申请日:2018-05-31
Applicant: 华中科技大学
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明公开了一种基于词性分类的文本分类方法,包括:从网络获取训练文本集和测试文本集,对训练文本集与测试文本集进行预处理,从而获得训练文本集与测试文本集中每一个文本的多个词集,将得到的每个文本的多个词集作为输入对文本主题生成模型LDA进行训练,以得到每个文本在不同主题数目下的文本‑词集‑主题的混合概率分布模型,使用SVM‑train函数对多个文本‑词集‑主题的混合概率分布模型进行分类器训练,以得到多个训练后的分类器,使用多个文本‑词集‑主题的混合概率分布模型作为训练后的分类器的输入进行SVM类别预测。本发明能解决现有方法中存在的训练模型时所需特征词的维度高、分类的准确率低、以及分类器的泛化能力差的技术问题。
-
公开(公告)号:CN108763539A
公开(公告)日:2018-11-06
申请号:CN201810551315.3
申请日:2018-05-31
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于词性分类的文本分类方法,包括:从网络获取训练文本集和测试文本集,对训练文本集与测试文本集进行预处理,从而获得训练文本集与测试文本集中每一个文本的多个词集,将得到的每个文本的多个词集作为输入对文本主题生成模型LDA进行训练,以得到每个文本在不同主题数目下的文本‑词集‑主题的混合概率分布模型,使用SVM‑train函数对多个文本‑词集‑主题的混合概率分布模型进行分类器训练,以得到多个训练后的分类器,使用多个文本‑词集‑主题的混合概率分布模型作为训练后的分类器的输入进行SVM类别预测。本发明能解决现有方法中存在的训练模型时所需特征词的维度高、分类的准确率低、以及分类器的泛化能力差的技术问题。
-