多模态大模型的训练方法、图文翻译方法以及装置

    公开(公告)号:CN119693766A

    公开(公告)日:2025-03-25

    申请号:CN202411761461.0

    申请日:2024-12-02

    Abstract: 本申请公开了一种多模态大模型的训练方法、图文翻译方法以及装置,确定包括训练文本、翻译文本、训练图像以及问询信息的训练样本,基于训练样本对待训练的多模态大模型进行训练,获得已训练的多模态大模型,多模态大模型报包括图像编码器、适配器以及大语言模型,图像编码器用于从图像的像素表示中提取粒度不同的信息转换为图像向量表示,适配器用于将第一图像向量表示的维度和第二图像向量表示的维度转换为大语言模型接受的维度,大语言模型用于根据输入的图像向量表示和问询信息输出对应的答案。本申请通过在模型框架上加入细粒度图像编码器弥补多模态大模型对于细粒度图像信息编码不足的缺点,以提高多模态大模型的视觉捕获能力。

Patent Agency Ranking