-
公开(公告)号:CN118470602A
公开(公告)日:2024-08-09
申请号:CN202410644438.7
申请日:2024-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种表征模型的训练方法及装置,在训练方法中,获取多个视频样本各自对应的文本信息,其中任意的第一视频样本对应的文本信息包括,描述该视频的第一文本,以及描述该视频中关键帧的第二文本。利用表征模型,分别对第一文本、关键帧以及第二文本进行编码处理,得到各自对应的表征。基于关键帧和第二文本的表征,计算关键帧与第二文本的模态间相似度,以及基于第一文本和第二文本的表征,计算第一文本与第二文本的模态内相似度。基于模态间相似度和模态内相似度,对关键帧的表征进行特征增强。基于多个视频样本的增强表征与第一文本的表征之间的差异,确定第一对比损失。基于包括该第一对比损失的综合损失,调整表征模型的参数。
-
公开(公告)号:CN120068981A
公开(公告)日:2025-05-30
申请号:CN202510230447.6
申请日:2025-02-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/084 , G06N3/09 , G06N3/045 , G06N3/0464 , G06F40/166 , G06F18/27 , G06V10/82
Abstract: 本说明书实施例提供一种多模态大模型的训练方法及装置,提供多模态大模型的训练方案,可以对多模态大模型中各个网络模块按照功能解耦,并对解耦后的网络模块进行分阶段的渐进训练,逐渐拓展模型的模态支持能力、在各模态达到较佳性能。这种训练方式可以有效实现各模态数据的稳定训练。
-