-
公开(公告)号:CN115048933A
公开(公告)日:2022-09-13
申请号:CN202210636113.5
申请日:2022-06-07
Applicant: 东南大学
IPC: G06F40/295 , G06K9/62 , G16H10/00
Abstract: 本发明公开了一种针对标记不充分数据的半监督命名实体识别方法,首先,使用无标记的领域数据对BERT进行微调,得到领域适应的BERT;用标记数据训练领域适应的BERT,得到ROSE‑NER‑基础模型;再用ROSE‑NER‑基础模型预测出伪标记数据;最后结合标记数据和伪标记数据,从而训练最终的ROSE‑NER模型。本方法通过使用大量的伪标记数据来扩充少量的标记数据,从而缓解标记数据过少的问题;通过一个修正的损失函数来调整模型训练中黄金标记和伪标记数据的权重;通过对抗训练的方法来减轻噪声数据的影响,大大解决了专业领域的数据标记不足和噪声数据的问题。