-
公开(公告)号:CN116738992B
公开(公告)日:2024-09-24
申请号:CN202310038699.X
申请日:2023-01-12
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/30 , G06F16/35 , G06F18/2415 , G06F18/25 , G16H10/60 , G06N3/042 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于图注意力网络和字词融合的医疗命名实体识别方法,包括将待识别的文本序列输入Bert模型,得到文本序列中每一个文字的特征向量,即得到字特征;通过SoftLexicon方法将与文本序列中字符匹配的词汇表示层特征向量,即得到词汇特征;令字特征指向与之对应的词汇特征构建有向图,并利用邻接矩阵保存有向图的信息,将字特征、词汇特征及其对应的邻接矩阵利用图注意力网络进行融合,得到字词特征向量;利用BiLSTM网络对字词特征向量进行上下文语义提取,得到上下文语义向量;将上下文语义向量输入条件随机场层,预测得到文本序列对应的标签;本发明有效提高医疗命名实体识别的准确率。
-
公开(公告)号:CN116738992A
公开(公告)日:2023-09-12
申请号:CN202310038699.X
申请日:2023-01-12
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/30 , G06F16/35 , G06F18/2415 , G06F18/25 , G16H10/60 , G06N3/042 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于图注意力网络和字词融合的医疗命名实体识别方法,包括将待识别的文本序列输入Bert模型,得到文本序列中每一个文字的特征向量,即得到字特征;通过SoftLexicon方法将与文本序列中字符匹配的词汇表示层特征向量,即得到词汇特征;令字特征指向与之对应的词汇特征构建有向图,并利用邻接矩阵保存有向图的信息,将字特征、词汇特征及其对应的邻接矩阵利用图注意力网络进行融合,得到字词特征向量;利用BiLSTM网络对字词特征向量进行上下文语义提取,得到上下文语义向量;将上下文语义向量输入条件随机场层,预测得到文本序列对应的标签;本发明有效提高医疗命名实体识别的准确率。
-
公开(公告)号:CN115497590A
公开(公告)日:2022-12-20
申请号:CN202211295864.1
申请日:2022-10-21
Applicant: 重庆邮电大学
IPC: G16H10/60 , G06F40/295 , G06F40/126 , G06F40/194 , G06K9/62
Abstract: 本发明属于文本处理领域,提供了一种基于混合采样策略的中文电子病历命名实体识别方法,所述方法包括获取有标记实体的源领域数据集和少量标记实体或无标记实体的目标领域数据集;利用源领域数据集训练命名实体识别模型。运用迁移学习将模型应用到目标源领数据集中,得到实体识别结果;运用混合采样策略的主动学习从实体识别结果中选出最有价值的样本,人工标注后加入到训练集中,重复上述过程,直到目标领域实体识别结果达到要求。本发明通过迁移从源领域中学习的知识到目标领域中,缓解了零标记样本冷启动问题,通过选取最有价值的样本减少了人工标注数据量并减少了单位样本的标注成本,同时提高了中文电子病历对于句子级的命名实体识别准确率。
-
-