基于特征传导的端到端文档图像翻译方法及装置

    公开(公告)号:CN118447523A

    公开(公告)日:2024-08-06

    申请号:CN202410446560.3

    申请日:2024-04-15

    Abstract: 本发明提供一种基于特征传导的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像;提取待翻译文档图像的字符识别结果的几何联合特征,几何联合特征包括几何版面特征、文本特征;基于几何联合特征,得到待翻译文档图像的逻辑版面特征;将逻辑版面特征,和几何联合特征中的文本特征进行特征融合,得到待翻译文档图像的翻译导向特征;基于翻译导向特征,得到文档图像翻译结果。本发明提供的方法,将几何版面以及逻辑版面信息显式地进行建模,并将它们与文本特征进行融合,提升了对复杂版面的文档图像的翻译能力。同时,提供了基于特征传导的统一联合框架,增强了版面模块与翻译模块的协同优化。

    融合版面信息的端到端文档图像翻译方法及装置

    公开(公告)号:CN117253239A

    公开(公告)日:2023-12-19

    申请号:CN202311189129.7

    申请日:2023-09-14

    Abstract: 本发明提供一种融合版面信息的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像的字符识别结果,所述字符识别结果包括所述待翻译文档图像中的多个单词以及每个单词的二维坐标信息,所述二维坐标信息基于所述待翻译文档图像的像素值确定;基于所述每个单词对应的文本、所述每个单词的二维坐标信息以及所述每个单词的一维位置信息,得到第一特征向量,所述一维位置信息用于指示所述单词在单词序列中的位置,所述单词序列用于指示从所述待翻译文档图像中识别出来的所有单词组成的一维序列;对所述第一特征向量解码,得到所述待翻译文档图像对应的译文文本。本发明提供的融合版面信息的端到端文档图像翻译方法,有效提升文档翻译效果。

Patent Agency Ranking