-
公开(公告)号:CN111666762B
公开(公告)日:2023-06-20
申请号:CN202010429765.2
申请日:2020-05-20
Applicant: 东华大学
IPC: G06F40/289 , G06F40/211 , G16H10/60 , G06N20/20 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了基于多任务学习的肠癌诊断电子病历属性值抽取方法,具体为一种端到端的神经网络模型从文本的多个实例中提取属性值。首先,对于每个实例使用预训练的词嵌入来更好地初始化神经网络模型中的参数。其次,使用领域语料库(训练数据)对其进行微调来捕获特定领域的语义/知识。然后,使用BiLSTM层来考虑多条句子上下文信息,以获得更好的句子表示。接着,考虑到并非所有句子对每一个属性提取器都有用,本发明使用注意力机制为不同的属性提取器选择最重要的实例,并相应地减少其它实例所带来的噪声。最后,在输出层使用多任务学习机制,共同学习相关任务以同时解决多个多类问题任务,从而获得更好的结果并减少过拟合的风险。同时,还对每个任务的损失贡献做出了不同重要性的区分。
-
公开(公告)号:CN111666762A
公开(公告)日:2020-09-15
申请号:CN202010429765.2
申请日:2020-05-20
Applicant: 东华大学
IPC: G06F40/289 , G06F40/211 , G16H10/60 , G06N20/20 , G06N3/04
Abstract: 本发明公开了基于多任务学习的肠癌诊断电子病历属性值抽取方法,具体为一种端到端的神经网络模型从文本的多个实例中提取属性值。首先,对于每个实例使用预训练的词嵌入来更好地初始化神经网络模型中的参数。其次,使用领域语料库(训练数据)对其进行微调来捕获特定领域的语义/知识。然后,使用BiLSTM层来考虑多条句子上下文信息,以获得更好的句子表示。接着,考虑到并非所有句子对每一个属性提取器都有用,本发明使用注意力机制为不同的属性提取器选择最重要的实例,并相应地减少其它实例所带来的噪声。最后,在输出层使用多任务学习机制,共同学习相关任务以同时解决多个多类问题任务,从而获得更好的结果并减少过拟合的风险。同时,还对每个任务的损失贡献做出了不同重要性的区分。
-