一种基于短语向量的文本分类方法

    公开(公告)号:CN110825848B

    公开(公告)日:2022-08-09

    申请号:CN201911067880.3

    申请日:2019-11-04

    Abstract: 本发明涉及一种基于短语向量的文本分类方法,属于自然语言处理技术领域。该方法依靠文本分词及单词的词性标注,得到词项集合;通过基于卷积神经网络的自编码器为所有词项构建对应的短语向量表示;改进分层注意力模型,在句编码时,提出为文本中每个句子设置特定的目标向量,结合全局目标向量,按照一定的权重对所有词项及其注意力得分进行综合得到句编码;最终,通过分层注意力模型中文档编码层、文档注意力层和文档分类层,获得文档对应每个类别的概率,即文本分类。对比现有技术,本发明既能解决词项语义信息不足问题,提供了比独立的词向量更完整更准确的语义信息,又能关注到每个文本最具区别性的语义特征,进一步提高文本分类的准确率。

    一种基于短语向量的文本分类方法

    公开(公告)号:CN110825848A

    公开(公告)日:2020-02-21

    申请号:CN201911067880.3

    申请日:2019-11-04

    Abstract: 本发明涉及一种基于短语向量的文本分类方法,属于自然语言处理技术领域。该方法依靠文本分词及单词的词性标注,得到词项集合;通过基于卷积神经网络的自编码器为所有词项构建对应的短语向量表示;改进分层注意力模型,在句编码时,提出为文本中每个句子设置特定的目标向量,结合全局目标向量,按照一定的权重对所有词项及其注意力得分进行综合得到句编码;最终,通过分层注意力模型中文档编码层、文档注意力层和文档分类层,获得文档对应每个类别的概率,即文本分类。对比现有技术,本发明既能解决词项语义信息不足问题,提供了比独立的词向量更完整更准确的语义信息,又能关注到每个文本最具区别性的语义特征,进一步提高文本分类的准确率。

Patent Agency Ranking