-
公开(公告)号:CN119295999A
公开(公告)日:2025-01-10
申请号:CN202411383312.5
申请日:2024-09-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/74 , G06V10/764
Abstract: 本说明书一个或多个实施例公开了一种视频数据处理方法及装置。该方法首先获取目标视频以及与目标视频的视频类别相关的多个视频类别标签,其次,通过图文跨模态预训练模型对目标视频进行特征提取,得到目标视频的文本特征和包括多个视频帧的第二视频特征,并将目标视频的第二视频特征输入训练后的视频调制模型中,通过视频调制模型中的时序调制矩阵在预设时间段内对目标视频进行调制处理,得到目标视频对应的调制处理后的第二视频特征,最后计算调制处理后的第二视频特征和多个视频类别标签之间的第一相似度,计算调制处理后的第二视频特征和目标视频的文本特征之间的第二相似度,并基于第一相似度和第二相似度确定目标视频的视频类别。
-
公开(公告)号:CN119006957A
公开(公告)日:2024-11-22
申请号:CN202411124386.7
申请日:2024-08-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/82 , G06V40/70 , G06N3/0464 , G06N3/08
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:从用于训练学生模型的多批图像样本中获取第一批图像样本,第一批图像样本中包括多张不同的图像样本,以及图像样本被掩码处理后的掩码图像;将多张图像样本输入到学生模型对应的教师模型中,分别得到每张图像样本对应的第一预测结果,并将多张掩码图像输入到学生模型中,分别得到每张掩码图像对应的第二预测结果;基于第一预测结果,确定多张图像样本之间的关联关系信息,并基于多张图像样本之间的关联关系信息对第二预测结果进行调制处理,得到每张掩码图像对应的重建图像的预测编码信息;基于第一预测结果和预测编码信息,对学生模型进行训练。
-