基于多模态码本的文本图像翻译模型的训练方法

    公开(公告)号:CN116168401A

    公开(公告)日:2023-05-26

    申请号:CN202310158612.2

    申请日:2023-02-23

    Applicant: 厦门大学

    Abstract: 本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法,包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。

Patent Agency Ranking