-
公开(公告)号:CN119443120A
公开(公告)日:2025-02-14
申请号:CN202411499066.X
申请日:2024-10-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0499 , G06N5/04
Abstract: 公开了一种翻译方法及装置、计算机可读存储介质及计算机程序产品,所述方法包括:将源文档图像输入图像编码器,得到图像编码特征,其中,源文档图像包括源语言文本部分和插图部分;将源文档图像输入语义对齐编码器,得到单模态语义编码特征;将图像编码特征和单模态语义编码特征输入解码器,得到源文档图像的翻译结果,其中,翻译结果包括目标语言文本部分和插图部分;其中,翻译模型利用多模态大模型的输出进行训练。
-
公开(公告)号:CN118397641A
公开(公告)日:2024-07-26
申请号:CN202410416736.0
申请日:2024-04-08
Applicant: 中国科学院自动化研究所
IPC: G06V30/28 , G06V30/19 , G06N3/0455 , G06N3/08 , G06F40/40
Abstract: 本发明提供一种端到端文档图像翻译方法及装置,该方法包括:对文档图像进行光学字符识别编码,得到图像编码特征,对文档图像进行版面感知编码,得到版面编码特征;根据门控机制对图像编码特征和版面编码特征进行特征加权融合,得到融合特征表示;对融合特征表示进行解码,得到翻译文本。本发明所述方法通过图像编码特征和版面编码特征的融合特征实现文档图像的翻译,提高了文档图片的翻译准确率。
-