一种基于预训练模型的政务文件归属省份分类方法

    公开(公告)号:CN114153803A

    公开(公告)日:2022-03-08

    申请号:CN202111470389.2

    申请日:2021-12-03

    Abstract: 本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区‑省份映射训练,得到地区‑省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。

    一种基于Bert和残差自注意力机制的政务文件主题分类方法

    公开(公告)号:CN114153802A

    公开(公告)日:2022-03-08

    申请号:CN202111469862.5

    申请日:2021-12-03

    Abstract: 本发明一种基于Bert和残差自注意力机制的政务文件主题分类方法,包括政务文件原始特征抽取和选择、政务文件原始特征清洗和优化、文本预训练以及基于残差自注意力机制的主题标签分类,本发明针对政务数据多源异构的特点,提出了统一的特征抽取、异常处理和特征选择方法,设计了具有针对性的特征清洗和优化策略,构建基于Bert预训练模型和残差自注意力机制的文件主题分类模型,解决了传统文件主题分类方法效率低和缺乏自适应能力的问题,实验基于公开政务文件数据集,在面向多达70种主题标签分类的实际应用场景中,分类准确率高达96.72%。

    一种基于Bert和残差自注意力机制的政务文件主题分类方法

    公开(公告)号:CN114153802B

    公开(公告)日:2024-09-06

    申请号:CN202111469862.5

    申请日:2021-12-03

    Abstract: 本发明一种基于Bert和残差自注意力机制的政务文件主题分类方法,包括政务文件原始特征抽取和选择、政务文件原始特征清洗和优化、文本预训练以及基于残差自注意力机制的主题标签分类,本发明针对政务数据多源异构的特点,提出了统一的特征抽取、异常处理和特征选择方法,设计了具有针对性的特征清洗和优化策略,构建基于Bert预训练模型和残差自注意力机制的文件主题分类模型,解决了传统文件主题分类方法效率低和缺乏自适应能力的问题,实验基于公开政务文件数据集,在面向多达70种主题标签分类的实际应用场景中,分类准确率高达96.72%。

    一种基于预训练模型的政务文件归属省份分类方法

    公开(公告)号:CN114153803B

    公开(公告)日:2024-07-19

    申请号:CN202111470389.2

    申请日:2021-12-03

    Abstract: 本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区‑省份映射训练,得到地区‑省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。

Patent Agency Ranking