一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法

    公开(公告)号:CN110825845A

    公开(公告)日:2020-02-21

    申请号:CN201911012774.5

    申请日:2019-10-23

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于字符与自注意力机制的层次文本分类方法,属于自然语言处理领域。首先通过构建字符表,然后对原始数据集进行预处理,对预处理后数据集中的字符进行编码,将编码后的字符特征使用自注意力机制得到字符自注意力机制特征,合并字符自注意力机制特征的上下文信息得到词特征。接着对词特征使用自注意力机制得到词自注意力机制特征,合并词自注意力机制特征的上下文得到句子特征。最后,使用softmax分类器预测文本类别。本发明能在自注意力机制的基础上构造层次自注意力机制网络,捕获文本结构的复合特征,提高分类精确度。

    一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法

    公开(公告)号:CN110825845B

    公开(公告)日:2022-09-23

    申请号:CN201911012774.5

    申请日:2019-10-23

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于字符与自注意力机制的层次文本分类方法,属于自然语言处理领域。首先通过构建字符表,然后对原始数据集进行预处理,对预处理后数据集中的字符进行编码,将编码后的字符特征使用自注意力机制得到字符自注意力机制特征,合并字符自注意力机制特征的上下文信息得到词特征。接着对词特征使用自注意力机制得到词自注意力机制特征,合并词自注意力机制特征的上下文得到句子特征。最后,使用softmax分类器预测文本类别。本发明能在自注意力机制的基础上构造层次自注意力机制网络,捕获文本结构的复合特征,提高分类精确度。

Patent Agency Ranking