-
公开(公告)号:CN117315056A
公开(公告)日:2023-12-29
申请号:CN202311594465.X
申请日:2023-11-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种视频编辑方法及装置,其中视频编辑的实现基于预训练的文生图模型,所述文生图模型包括Unet模型。该方法包括:首先,确定与原始视频的n个视频帧对应的n个加噪编码,以及,确定与引导视频编辑的描述文本对应的文本编码。然后,利用文本编码和Unet模型对n个加噪编码分别进行去噪处理,得到n个去噪编码;其中Unet模型包括接续在目标网络层之后的自注意力层,对任意第i个加噪编码进行的去噪处理包括:在Unet模型的自注意力层中,基于目标网络层针对第i个加噪编码的输出,以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后,分别对n个去噪编码进行解码处理,得到n个目标图像,用于形成编辑后的目标视频。
-
公开(公告)号:CN115187840A
公开(公告)日:2022-10-14
申请号:CN202210698004.6
申请日:2022-06-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/778 , G06V10/764
Abstract: 本说明书实施例提供一种训练关系识别模型的方法,利用该模型进行图分析的方法和装置。训练方法包括,将关系类别总集划分为K个分组,并对应设置K个分类器,其中任意第k分类器对应的第k分类空间,由前一分类器对应的分类空间叠加第k分组中的关系类别构成。然后从图片样本全集中,分别针对K个分类器进行采样,得到K个样本子集,并将其各自输入对应的各分类器,得到图片中物体之间的关系类别预测结果。接着,基于K个分类器各自的分类损失确定第一损失,并基于K个分类器中不同分类器针对同一对物体的关系类别预测结果之间的相似度确定第二损失。从而,根据第一损失和第二损失更新关系识别模型。
-
公开(公告)号:CN116522142A
公开(公告)日:2023-08-01
申请号:CN202310495656.4
申请日:2023-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/25 , G06F18/24 , G06V10/774 , G06V10/80 , G06V10/764
Abstract: 本说明书的实施例提供了一种用于训练特征提取模型的方法、特征提取方法和装置。在该用于训练特征提取模型的方法中,利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件:将各个当前训练样本的图像数据和文本数据分别提供给当前图像特征提取模型和当前文本向量化模型,得到各个当前训练样本的对应图像特征和对应文本向量;将各个当前训练样本的对应文本向量以及由对应图像特征和对应文本向量拼接的结果提供给当前多模态特征融合模型,以得到各个当前训练样本的文本特征和多模态特征;分别根据多模态特征和文本特征确定第一损失值和第二损失值进而确定当前模型训练过程的总损失值;根据总损失值调整当前特征提取模型的模型参数。
-
公开(公告)号:CN118470602A
公开(公告)日:2024-08-09
申请号:CN202410644438.7
申请日:2024-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种表征模型的训练方法及装置,在训练方法中,获取多个视频样本各自对应的文本信息,其中任意的第一视频样本对应的文本信息包括,描述该视频的第一文本,以及描述该视频中关键帧的第二文本。利用表征模型,分别对第一文本、关键帧以及第二文本进行编码处理,得到各自对应的表征。基于关键帧和第二文本的表征,计算关键帧与第二文本的模态间相似度,以及基于第一文本和第二文本的表征,计算第一文本与第二文本的模态内相似度。基于模态间相似度和模态内相似度,对关键帧的表征进行特征增强。基于多个视频样本的增强表征与第一文本的表征之间的差异,确定第一对比损失。基于包括该第一对比损失的综合损失,调整表征模型的参数。
-
公开(公告)号:CN117315056B
公开(公告)日:2024-03-19
申请号:CN202311594465.X
申请日:2023-11-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种视频编辑方法及装置,其中视频编辑的实现基于预训练的文生图模型,所述文生图模型包括Unet模型。该方法包括:首先,确定与原始视频的n个视频帧对应的n个加噪编码,以及,确定与引导视频编辑的描述文本对应的文本编码。然后,利用文本编码和Unet模型对n个加噪编码分别进行去噪处理,得到n个去噪编码;其中Unet模型包括接续在目标网络层之后的自注意力层,对任意第i个加噪编码进行的去噪处理包括:在Unet模型的自注意力层中,基于目标网络层针对第i个加噪编码的输出,以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后,分别对n个去噪编码进行解码处理,得到n个目标图像,用于形成编辑后的目标视频。
-
公开(公告)号:CN116721375A
公开(公告)日:2023-09-08
申请号:CN202310700898.2
申请日:2023-06-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 本说明书实施例提供了视频特征模型训练方法及装置、视频特征提取方法及装置。在模型训练方法中,获取视频数据,然后按照以下方式对视频特征模型进行训练,直至满足训练结束条件:将视频数据提供给所述视频特征模型,以得到多模态特征;得到各个正例视频对组中的视频帧特征与文本特征之间的正例匹配度得分;根据正例匹配度得分得到为正例视频对组所分配的正例权重;基于负例多模态特征和所述正例多模态特征以及对应的正例权重,利用当前的视频特征模型在预设代理任务中计算第一损失;以及基于第一损失对视频特征模型进行调整。
-
-
-
-
-