重建引导的多模态大模型训练方法、装置、应用及设备

    公开(公告)号:CN119692463A

    公开(公告)日:2025-03-25

    申请号:CN202411652971.4

    申请日:2024-11-19

    Inventor: 张兆翔 王淏辰

    Abstract: 本发明提供了一种重建引导的多模态大模型训练方法、装置、应用、设备、介质及程序产品。该方法包括:对样本图像进行重建,得到重建图像特征;将针对样本图像的样本视觉特征和针对样本文本的样本文本特征输入多模态大模型,输出预测视觉特征和预测文本特征,其中,样本文本与样本图像关联;基于重建图像特征和预测视觉特征,确定重建引导的视觉损失值;基于预测文本特征和样本文本特征,确定文本损失值;以及基于重建引导的视觉损失值和文本损失值,对多模态大模型进行训练,得到训练好的多模态大模型。

    基于困难样本挖掘的模型训练方法、设备和存储介质

    公开(公告)号:CN116704217A

    公开(公告)日:2023-09-05

    申请号:CN202310370230.6

    申请日:2023-04-07

    Abstract: 本发明实施例提供了一种基于困难样本挖掘的模型训练方法、设备和存储介质,涉及人工智能技术领域,该方法包括:获取当前迭代过程中基于第一图像对第一模型训练得到的模型参数,更新第二模型的模型参数;基于更新后的第二模型,确定原始图像中各图像块对应的预测重建损失;基于预测重建损失及预设困难样本需求,生成目标掩码策略;基于目标掩码策略,更新第一图像,用于下次迭代过程中对第一模型进行训练,直至第一模型的损失函数达到收敛或迭代过程的次数达到预设的迭代总次数。本发明基于第一模型的迭代训练过程,不断更新掩码策略,帮助模型学习到更具有迁移性的特征表示,提高第一模型的表征能力,避免掩码学习对人工预定义的掩码规则的依赖。

Patent Agency Ranking