-
公开(公告)号:CN114153803A
公开(公告)日:2022-03-08
申请号:CN202111470389.2
申请日:2021-12-03
Applicant: 西安交通大学
IPC: G06F16/16 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区‑省份映射训练,得到地区‑省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
-
公开(公告)号:CN114153802A
公开(公告)日:2022-03-08
申请号:CN202111469862.5
申请日:2021-12-03
Applicant: 西安交通大学
IPC: G06F16/16 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明一种基于Bert和残差自注意力机制的政务文件主题分类方法,包括政务文件原始特征抽取和选择、政务文件原始特征清洗和优化、文本预训练以及基于残差自注意力机制的主题标签分类,本发明针对政务数据多源异构的特点,提出了统一的特征抽取、异常处理和特征选择方法,设计了具有针对性的特征清洗和优化策略,构建基于Bert预训练模型和残差自注意力机制的文件主题分类模型,解决了传统文件主题分类方法效率低和缺乏自适应能力的问题,实验基于公开政务文件数据集,在面向多达70种主题标签分类的实际应用场景中,分类准确率高达96.72%。
-
公开(公告)号:CN114153802B
公开(公告)日:2024-09-06
申请号:CN202111469862.5
申请日:2021-12-03
Applicant: 西安交通大学
IPC: G06F16/16 , G06F40/216 , G06N3/045 , G06N3/0464 , G06N3/09
Abstract: 本发明一种基于Bert和残差自注意力机制的政务文件主题分类方法,包括政务文件原始特征抽取和选择、政务文件原始特征清洗和优化、文本预训练以及基于残差自注意力机制的主题标签分类,本发明针对政务数据多源异构的特点,提出了统一的特征抽取、异常处理和特征选择方法,设计了具有针对性的特征清洗和优化策略,构建基于Bert预训练模型和残差自注意力机制的文件主题分类模型,解决了传统文件主题分类方法效率低和缺乏自适应能力的问题,实验基于公开政务文件数据集,在面向多达70种主题标签分类的实际应用场景中,分类准确率高达96.72%。
-
公开(公告)号:CN114153803B
公开(公告)日:2024-07-19
申请号:CN202111470389.2
申请日:2021-12-03
Applicant: 西安交通大学
IPC: G06F16/16 , G06F40/295 , G06N3/045 , G06N3/0442 , G06N3/09
Abstract: 本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区‑省份映射训练,得到地区‑省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
-
-
-