基于多模态编码器的多模态大语言模型训练方法及系统

    公开(公告)号:CN117218498B

    公开(公告)日:2024-02-23

    申请号:CN202311477951.3

    申请日:2023-11-08

    Applicant: 苏州大学

    Abstract: 本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统,涉及电子信息技术领域,包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成;训练流程包括基于多模态编码器抽取文本指令可知的图像Queries,生成文本回复并计算损失函数;推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互,使抽取的图像特征能够更精准地与输入的文本指令对齐,运用现成模型已有的知识,降低了训练成本,本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。

    基于多模态编码器的多模态大语言模型训练方法及系统

    公开(公告)号:CN117218498A

    公开(公告)日:2023-12-12

    申请号:CN202311477951.3

    申请日:2023-11-08

    Applicant: 苏州大学

    Abstract: 本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统,涉及电子信息技术领域,包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成;训练流程包括基于多模态编码器抽取文本指令可知的图像Queries,生成文本回复并计算损失函数;推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互,使抽取的图像特征能够更精准地与输入的文本指令对齐,运用现成模型已有的知识,降低了训练成本,本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。

Patent Agency Ranking