-
公开(公告)号:CN115270823A
公开(公告)日:2022-11-01
申请号:CN202210714234.7
申请日:2022-06-22
Applicant: 清华大学
Abstract: 本发明提供一种基于预训练编码网络的机器翻译方法及装置,其中的机器翻译方法包括:获取目标语言数据集以及双语平行数据集;基于机器翻译任务和降噪自编码任务,利用目标语言数据集和双语平行数据集对原始机器翻译模型进行训练,得到机器翻译模型;原始机器翻译模型包括预训练编码网络、适配网络和解码网络;将待翻译源语言数据输入至机器翻译模型,得到机器翻译结果。该方法并未使用伪平行数据,不会存在现有技术中噪声引入的问题,并且,在编码网络和解码网络的基础上引入了适配网络,通过充分有效地利用大规模单语数据,大大提升了机器翻译的翻译质量和效率。