融合多模态细粒度信息的视频机器翻译方法及装置

    公开(公告)号:CN119996762A

    公开(公告)日:2025-05-13

    申请号:CN202510043829.8

    申请日:2025-01-10

    Abstract: 本发明提供一种融合多模态细粒度信息的视频机器翻译方法及装置。该融合多模态细粒度信息的视频机器翻译方法应包括:对视频中的画面进行信息抽取,得到所述画面中的细粒度视觉信息,并对所述视频中的音频进行信息抽取,得到所述音频中的细粒度音频信息;将所述细粒度视觉信息与所述细粒度音频信息融合到源文本中,得到融合文本;所述源文本为所述视频中的待翻译字幕;将所述融合文本输入到机器翻译模型中得到目标翻译文本。本发明提供的融合多模态细粒度信息的视频机器翻译方法及装置,通过将视频的细粒度视觉信息和细粒度音频信息融合进源文本中,基于融合文本进行机器翻译,提高了翻译的准确性。

Patent Agency Ranking