-
公开(公告)号:CN118468896A
公开(公告)日:2024-08-09
申请号:CN202410423586.6
申请日:2024-04-09
Applicant: 上海交通大学
IPC: G06F40/58 , G06N3/0455 , G06N5/04 , G06N3/084
Abstract: 本发明实施例提供一种多语言翻译模型的训练方法、系统和电子设备。该方法包括:将多语言的训练语料以批为单位输入至多语言翻译模型;通过多语言翻译模型前向传播推理出源语言的翻译目标语言,其中,多语言翻译模型包括:编码器层、解码器层,在共有l层的编码器层以及解码器层中,选取lr层作为常规层,选取lm层作为编码器层以及解码器层共享有的多语言注意力头部;利用基准目标语言与翻译目标语言的差异,对多语言注意力头部中与源语言以及基准目标语言相关的部分语言注意力头部的参数进行反向传播训练。本发明实施例改进模型内部结构,挖掘出其多语言翻译能力,使得不同翻译语言对之间相互形成性能促进的能力,对翻译语料规模的要求也会降低。