一种自适应错词和生词的印尼新闻文本分类方法

    公开(公告)号:CN110008341A

    公开(公告)日:2019-07-12

    申请号:CN201910250650.4

    申请日:2019-03-29

    Abstract: 本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

    一种自适应错词和生词的印尼新闻文本分类方法

    公开(公告)号:CN110008341B

    公开(公告)日:2023-01-17

    申请号:CN201910250650.4

    申请日:2019-03-29

    Abstract: 本发明提供了一种自适应错词和生词的印尼新闻文本分类方法,根据印尼新闻数据训练词到向量的神经网络模型,得到词到向量的映射字典;训练自适应错词和生词的词向量生成模型以及字到向量的映射字典;利用有标签的新闻语料训练文本分类模型;利用所述自适应错词和生词的词向量生成模型以及字到向量的映射字典,得到词向量,从而完成印尼新闻文本的分类。本发明通过上述方法解决了现有的深度学习方法预测时错词和生词对预测结果的干扰的问题,让拼写错误的词语的词向量接近正确的词向量,进而有效地提高了分类的准确率。

Patent Agency Ranking