-
公开(公告)号:CN113988054B
公开(公告)日:2024-07-16
申请号:CN202111301680.7
申请日:2021-11-04
Applicant: 中国矿业大学
IPC: G06F40/216 , G06F40/295 , G06F18/24 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种面向煤矿安全领域的实体识别方法,适用于煤矿安全领域信息化使用,包括煤矿安全领域实体数据集构建、模型设计和模型训练三个步骤:煤矿安全领域实体数据集构建阶段进行数据清洗、处理和标注,处理为可用数据集;模型设计阶段,以RoBERTa预训练语言模型作为输入,利用更大的训练集、更大的Batch size、动态遮盖方式的优势获得更符合上下文语境的特征输入,通过双向长短期记忆网络进一步学习上下文关系,并加入注意力机制对序列元素赋以不同权重,最后利用CRF计算概率最大状态路径,得到最终实体类别,构建MSRBAC模型,最后使用训练完成的MSRBAC模型进行矿安全领域的实体识别。其步骤简单,使用方便,具有广泛的实用性。
-
公开(公告)号:CN113988054A
公开(公告)日:2022-01-28
申请号:CN202111301680.7
申请日:2021-11-04
Applicant: 中国矿业大学
IPC: G06F40/216 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向煤矿安全领域的实体识别方法,适用于煤矿安全领域信息化使用,包括煤矿安全领域实体数据集构建、模型设计和模型训练三个步骤:煤矿安全领域实体数据集构建阶段进行数据清洗、处理和标注,处理为可用数据集;模型设计阶段,以RoBERTa预训练语言模型作为输入,利用更大的训练集、更大的Batch size、动态遮盖方式的优势获得更符合上下文语境的特征输入,通过双向长短期记忆网络进一步学习上下文关系,并加入注意力机制对序列元素赋以不同权重,最后利用CRF计算概率最大状态路径,得到最终实体类别,构建MSRBAC模型,最后使用训练完成的MSRBAC模型进行矿安全领域的实体识别。其步骤简单,使用方便,具有广泛的实用性。
-