Patent search ap:("华南理工大学") AND inv:"张绍源" Page 1

1.

发明公开
一种领域适应医学文献神经机器翻译模型的训练方法有权

公开(公告)号：CN112989848A

公开(公告)日：2021-06-18

申请号：CN202110332815.X

申请日：2021-03-29

Applicant: 华南理工大学

Inventor： 董守斌 , 张绍源 , 胡金龙 , 袁华

IPC: G06F40/58 , G06F40/44 , G06F40/56 , G06F40/289 , G06F16/35

Abstract: 本发明公开了一种领域适应医学文献神经机器翻译模型的训练方法，包括：1)对域内外数据集进行数据预处理；2)基于域外子词化训练集进行域外子词化神经机器翻译模型进行动态递减训练集训练；3)使用改进的数据选择法，从域外数据集中挑选出与域内平行数据集相似的数据集来增强域内数据集；4)基于高质量的人工纠错的子词化医学数据集，训练小型的分类器或语言模型，获得域内子词化训练集句子对的训练权重，将权重作为训练参数加入到继续训练过程中；5)结合上一步骤处理得到的域内子词化训练集和训练权重文件，基于已训练域外子词化神经机器翻译模型，在域内子词化训练集上继续训练。本发明可节省总体训练时间，提高最终翻译训练效果。

2.

发明授权
一种领域适应医学文献神经机器翻译模型的训练方法有权

公开(公告)号：CN112989848B

公开(公告)日：2022-12-16

申请号：CN202110332815.X

申请日：2021-03-29

Applicant: 华南理工大学

Inventor： 董守斌 , 张绍源 , 胡金龙 , 袁华

IPC: G06F40/58 , G06F40/44 , G06F40/56 , G06F40/289 , G06F16/35

Abstract: 本发明公开了一种领域适应医学文献神经机器翻译模型的训练方法，包括：1)对域内外数据集进行数据预处理；2)基于域外子词化训练集进行域外子词化神经机器翻译模型进行动态递减训练集训练；3)使用改进的数据选择法，从域外数据集中挑选出与域内平行数据集相似的数据集来增强域内数据集；4)基于高质量的人工纠错的子词化医学数据集，训练小型的分类器或语言模型，获得域内子词化训练集句子对的训练权重，将权重作为训练参数加入到继续训练过程中；5)结合上一步骤处理得到的域内子词化训练集和训练权重文件，基于已训练域外子词化神经机器翻译模型，在域内子词化训练集上继续训练。本发明可节省总体训练时间，提高最终翻译训练效果。

Patent Agency Ranking