-
公开(公告)号:CN115238693A
公开(公告)日:2022-10-25
申请号:CN202210809038.8
申请日:2022-07-11
Applicant: 中国医学科学院北京协和医院 , 北京安妮福克斯信息咨询有限公司
IPC: G06F40/295 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多分词和多层双向长短期记忆的中文命名实体识别方法,通过对BERT‑BILSTM‑CRF模型的修改,提高命名实体的识别精度;确定命名实体识别模型的输入与输出:以医疗文本为研究对象,将带有实体标注的医疗文本数据集作为命名实体识别模型的输入,模型的输出是对数据集进行医疗实体预测后给出的实体标注结果;本发明,通过进一步强化模型的文本的语境特征提取性能,一方面考虑了多词切分的方法来增加局部语境特征,另一方面引入了多层双向长短期记忆方法,通过设置不同深度的BILSTM模型来增加全局语境特征以及引入了医学词典这一外部知识,通过丰富模型学习过程中的语义特征信息,从而进一步提升命名实体识别任务的精度。