-
公开(公告)号:CN115965010A
公开(公告)日:2023-04-14
申请号:CN202211365738.9
申请日:2022-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/279 , G06F40/30
Abstract: 本发明公开了一种基于两阶段训练策略的术语抽取方法。本方法为:1)获取目标领域的多篇文档并对其中的术语进行标注,得到该目标领域的术语训练集;2)基于中文预训练语言模型构建术语抽取模型,并利用所述术语训练集对所述术语抽取模型进行训练,得到术语知识模型;3)使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型;4)将所述目标领域的一篇文档a输入所述术语抽取模型,得到该文档a中的术语。本发明通过两阶段训练策略和泛化交叉熵损失函数来缓解远程监督标注数据带来的错误标签问题,从而提升术语抽取模型的泛化能力,最后通过实验论证了该方法的可行性和高效性。