基于视觉对比对齐的可信多模态大模型构建方法及装置

    公开(公告)号:CN120046742A

    公开(公告)日:2025-05-27

    申请号:CN202510529737.0

    申请日:2025-04-25

    Inventor: 李晶 陈阳能 张民

    Abstract: 本发明提供一种基于视觉对比对齐的可信多模态大模型构建方法及装置,涉及自然语言处理技术领域。该方法包括:获取文本数据和图片数据;将文本数据和图片数据输入指令微调后的多模态大模型中,获得图片数据对应的偏好响应logit和拒绝响应logit以及无图片对应的偏好响应logit和拒绝响应logit;构建基于视觉对比对齐的可信多模态大模型的框架包括:文本偏好优化模块、差额稳定优化模块、响应级视觉对比对齐模块和标记级视觉对比对齐模块;分别构建每个模块对应的损失函数;根据每个模块对应的损失函数,构建框架的整体损失函数;根据整体损失函数对模型进行训练,获得训练好的多模态大模型。采用本发明可提升多模态大模型的可信度。

Patent Agency Ranking