一种基于低频词表示增强的汉越神经机器翻译的方法

    公开(公告)号:CN113051936A

    公开(公告)日:2021-06-29

    申请号:CN202110280508.1

    申请日:2021-03-16

    Abstract: 本发明涉及一种基于低频词表示增强的汉越神经机器翻译的方法,属于自然语言处理领域。神经机器翻译中的低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现的次数少,训练过程中低频词的表示不够准确,这一问题在低资源神经机器翻译任务中影响更为突出。本发明利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解了低频词表示不准确问题。本发明分别在汉‑越和越‑汉两个低资源翻译任务上进行实验,实验结果表明本发明提出的方法相对于基线模型分别在两个任务上提升了8.58%和6.06%。

Patent Agency Ranking