-
公开(公告)号:CN119918635A
公开(公告)日:2025-05-02
申请号:CN202510051894.5
申请日:2022-07-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供编码装置、数据处理方法及装置,其中所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,所述模态输入切换模块被配置为对第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。
-
公开(公告)号:CN117315056A
公开(公告)日:2023-12-29
申请号:CN202311594465.X
申请日:2023-11-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种视频编辑方法及装置,其中视频编辑的实现基于预训练的文生图模型,所述文生图模型包括Unet模型。该方法包括:首先,确定与原始视频的n个视频帧对应的n个加噪编码,以及,确定与引导视频编辑的描述文本对应的文本编码。然后,利用文本编码和Unet模型对n个加噪编码分别进行去噪处理,得到n个去噪编码;其中Unet模型包括接续在目标网络层之后的自注意力层,对任意第i个加噪编码进行的去噪处理包括:在Unet模型的自注意力层中,基于目标网络层针对第i个加噪编码的输出,以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后,分别对n个去噪编码进行解码处理,得到n个目标图像,用于形成编辑后的目标视频。
-
公开(公告)号:CN117556273A
公开(公告)日:2024-02-13
申请号:CN202410016072.9
申请日:2024-01-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/22 , G06F18/213 , G06N3/063
Abstract: 本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置,该方法包括:通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征,其中,每个处理器组包括一至多个图形处理器,每个图形处理器分别处理目标批次样本包含的至少一个样本的特征;各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度,并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中;分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度,确定各个处理器组对应的分组对比损失;根据各个处理器组对应的分组对比损失,确定整体对比损失。
-
公开(公告)号:CN117235534A
公开(公告)日:2023-12-15
申请号:CN202311508270.9
申请日:2023-11-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/22 , G06N3/08 , G06N3/045 , G06N3/0475
Abstract: 本说明书实施例涉及训练内容理解模型和内容生成模型的方法及装置,方法包括:使用目标训练集中由图像和文本构成的图文对,分别训练内容理解模型和内容生成模型,然后,针对含噪样本集进行样本处理,包括:将所述含噪样本集中任意第一图文对中的第一图像输入到所述内容理解模型中,得到若干候选文本,将所述第一图文对中的第一文本与若干候选文本分别输入到所述内容生成模型中,得到多个候选图像,将所述多个候选图像与所述第一图像进行相似度匹配,根据匹配结果确定目标文本,将所述第一图像与目标文本组成第二图文对,添加到所述目标训练集中,用于继续训练所述内容理解模型和内容生成模型。
-
公开(公告)号:CN116958868A
公开(公告)日:2023-10-27
申请号:CN202310906058.1
申请日:2023-07-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V20/62 , G06V10/74 , G06V10/774 , G06V10/80 , G06N3/0464 , G06N3/08
Abstract: 本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该用于确定文本和视频之间的相似度的方法中,将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型,得到对应的词符特征序列和图像特征序列;根据各个词符特征与各个图像特征之间的相似度确定相关词符特征‑图像特征对;针对各个相关词符特征‑图像特征对,对该词符特征与该图像特征之间的相似度和所确定的该图像特征对应的相近图像特征与词符特征序列之间的相似度进行聚合,生成相近图像约束相似度;以及基于所得到的相近图像约束相似度,确定文本视频对中的文本和视频之间的相似度。
-
公开(公告)号:CN116522142A
公开(公告)日:2023-08-01
申请号:CN202310495656.4
申请日:2023-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/25 , G06F18/24 , G06V10/774 , G06V10/80 , G06V10/764
Abstract: 本说明书的实施例提供了一种用于训练特征提取模型的方法、特征提取方法和装置。在该用于训练特征提取模型的方法中,利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件:将各个当前训练样本的图像数据和文本数据分别提供给当前图像特征提取模型和当前文本向量化模型,得到各个当前训练样本的对应图像特征和对应文本向量;将各个当前训练样本的对应文本向量以及由对应图像特征和对应文本向量拼接的结果提供给当前多模态特征融合模型,以得到各个当前训练样本的文本特征和多模态特征;分别根据多模态特征和文本特征确定第一损失值和第二损失值进而确定当前模型训练过程的总损失值;根据总损失值调整当前特征提取模型的模型参数。
-
公开(公告)号:CN111524150A
公开(公告)日:2020-08-11
申请号:CN202010631309.6
申请日:2020-07-03
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种图像处理的方法,巧妙利用特征金字塔网络,根据高阶特征图和低阶特征图的不同特性,基于金字塔状排布的特征图,通过低阶特征图进行语义分割,通过高阶特征图进行实例分割,从而,在一个网络中实现全景分割,实现了一种轻量级的、计算速度较快的全景分割模式。
-
公开(公告)号:CN115062782B
公开(公告)日:2025-02-14
申请号:CN202210789237.7
申请日:2022-07-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供编码装置、数据处理方法及装置,其中所述编码装置包括编码层和至少一个联合编码单元,其中,所述编码层对接收到的第一模态初始特征向量和第二模态初始特征向量进行编码,生成第一模态特征向量和第二模态特征向量,所述至少一个联合编码单元对所述第一模态特征向量和第二模态特征向量进行联合编码,所述至少一个联合编码单元包括编码模块和模态输入切换模块,所述模态输入切换模块被配置为对第一模态特征向量和第二模态特征向量进行处理得到第一模态切换编码向量和第二模态切换编码向量;所述编码模块被配置为对接收的第一模态切换编码向量和第二模态切换编码向量进行处理生成第一目标模态融合向量和第二目标模态融合向量。
-
公开(公告)号:CN118470602A
公开(公告)日:2024-08-09
申请号:CN202410644438.7
申请日:2024-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种表征模型的训练方法及装置,在训练方法中,获取多个视频样本各自对应的文本信息,其中任意的第一视频样本对应的文本信息包括,描述该视频的第一文本,以及描述该视频中关键帧的第二文本。利用表征模型,分别对第一文本、关键帧以及第二文本进行编码处理,得到各自对应的表征。基于关键帧和第二文本的表征,计算关键帧与第二文本的模态间相似度,以及基于第一文本和第二文本的表征,计算第一文本与第二文本的模态内相似度。基于模态间相似度和模态内相似度,对关键帧的表征进行特征增强。基于多个视频样本的增强表征与第一文本的表征之间的差异,确定第一对比损失。基于包括该第一对比损失的综合损失,调整表征模型的参数。
-
公开(公告)号:CN117315056B
公开(公告)日:2024-03-19
申请号:CN202311594465.X
申请日:2023-11-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种视频编辑方法及装置,其中视频编辑的实现基于预训练的文生图模型,所述文生图模型包括Unet模型。该方法包括:首先,确定与原始视频的n个视频帧对应的n个加噪编码,以及,确定与引导视频编辑的描述文本对应的文本编码。然后,利用文本编码和Unet模型对n个加噪编码分别进行去噪处理,得到n个去噪编码;其中Unet模型包括接续在目标网络层之后的自注意力层,对任意第i个加噪编码进行的去噪处理包括:在Unet模型的自注意力层中,基于目标网络层针对第i个加噪编码的输出,以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后,分别对n个去噪编码进行解码处理,得到n个目标图像,用于形成编辑后的目标视频。
-
-
-
-
-
-
-
-
-