-
公开(公告)号:CN116797877A
公开(公告)日:2023-09-22
申请号:CN202310762872.0
申请日:2023-06-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G10L25/57 , G06V10/80 , G06V20/40 , G06V40/16
Abstract: 本说明书实施例提供了图像生成模型的训练方法及装置、图像生成方法及装置。图像生成模型包括生成器,该训练方法包括:获取训练样本,其中包括语音信息、唇形与语音信息同步的真实图像帧序列、通过对真实图像帧序列中的图像帧的下半脸区域进行遮挡处理而获得的遮挡图像帧序列、脸部参考图像帧序列和牙齿参考图像,真实图像帧序列和脸部参考图像帧序列中的图像帧为同一对象的脸部图像;将语音信息、遮挡图像帧序列、脸部参考图像帧序列和牙齿参考图像输入生成器进行模型处理,得到针对遮挡图像帧序列中的图像帧的下半脸区域进行重建的重建图像帧序列;基于重建图像帧序列和真实图像帧序列确定预测损失;以最小化预测损失为目标,调整生成器的参数。
-
公开(公告)号:CN116843798B
公开(公告)日:2024-07-05
申请号:CN202310810626.8
申请日:2023-07-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/00
Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
-
公开(公告)号:CN116310472A
公开(公告)日:2023-06-23
申请号:CN202211407806.3
申请日:2022-11-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/764 , G06V10/26 , G06V10/80 , G06V10/774
Abstract: 本说明书实施例公开了一种屏幕检测方法、屏幕检测模型训练方法、装置和计算机设备。所述屏幕检测方法包括:获取设备的屏幕图像;对屏幕图像进行分割,得到多个图像块;提取图像块的第一特征数据;对多个图像块的第一特征数据进行融合,得到第一特征数据序列;根据第一特征数据序列,对设备的屏幕进行异常检测,得到检测结果。本说明书实施例的技术方案可以提高屏幕检测的准确性。
-
公开(公告)号:CN116246127A
公开(公告)日:2023-06-09
申请号:CN202310146035.5
申请日:2023-02-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G06V10/40 , G06V10/764 , G06V10/82
Abstract: 本说明书实施例公开了一种图像模型训练方法、图像处理方法、装置、存储介质及设备。该方法包括:将样本图像划分为多个图像分块,确定各个图像分块对应的分块向量,多个图像分块对应的分块向量形成分块向量序列;将分块向量序列与类标识向量序列进行连接处理,生成连接向量序列;将连接向量序列输入到图像特征提取模型,获取与N个输入类标识向量对应的N个输出类标识向量;基于输出类标识向量以及样本图像的标签,确定图像特征提取模型的模型损失,模型损失包括类标识约束损失,类标识约束损失用于通过约束输出类标识向量来学习样本图像的多类图像特征;基于模型损失调整输入类标识向量的参数以及图像特征提取模型的参数。
-
公开(公告)号:CN115457639A
公开(公告)日:2022-12-09
申请号:CN202211215104.5
申请日:2022-09-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本公开披露了一种基于多任务学习模型的目标检测方法及装置。所述方法包括:将图像输入所述多任务学习模型的特征提取网络,以提取所述图像的多层特征图,所述图像包括目标物,所述多层特征图包括第一层特征图和第二层特征图,所述第一层特征图的特征深度大于所述第二层特征图的特征深度;将所述第一层特征图输入所述多任务学习模型中的第一子任务网络,以获取所述目标物的第一边界框的检测数据;将所述第二层特征图输入所述多任务学习模型中的第二子任务网络,以获取所述目标物的第一关键点的检测数据。
-
公开(公告)号:CN117012228B
公开(公告)日:2024-11-01
申请号:CN202310943184.4
申请日:2023-07-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L25/51 , G06V10/774 , G06N3/0455 , G06N3/08 , G10L21/055 , G10L25/69
Abstract: 本说明书实施例提供一种训练评估模型、评估视频质量的方法及装置,在训练评估模型的方法中,获取样本集,其中包括,音画同步的第一视频样本。对第一视频样本进行音画分离,得到样本图像帧序列和对应的样本音频帧序列,并将其输入评估模型进行模型处理,该评估模型包括第一编码器和第二编码器。上述模型处理包括,利用第一编码器,对各样本图像帧进行编码,得到各样本图像表征,以及利用第二编码器,对各样本音频帧进行编码,得到各样本音频表征。以最小化第一损失为目标,调整第一编码器和第二编码器的参数,该第一损失正相关于,各样本图像表征与对应样本音频表征的不同模态间距离,以及各样本图像表征中相邻样本图像表征的同模态间距离。
-
公开(公告)号:CN114998575B
公开(公告)日:2024-07-30
申请号:CN202210753302.0
申请日:2022-06-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/25 , G06V10/774 , G06V10/82
Abstract: 本公开披露了一种训练和使用目标检测模型的方法和装置。所述训练方法包括:将图像输入所述目标检测模型的特征提取网络,以获取所述图像的特征图,所述图像包含多个目标物,所述多个目标物均包括多个检测部位,所述多个检测部位包括第一检测部位和第二检测部位;将所述特征图输入所述目标检测模型的从属关系检测网络,以获取第一结果和第二结果,所述第一结果包括表征所述第一检测部位的检测数据,所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据;根据所述第一结果的损失和所述第二结果的损失,更新所述目标检测模型。
-
公开(公告)号:CN117012228A
公开(公告)日:2023-11-07
申请号:CN202310943184.4
申请日:2023-07-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G10L25/51 , G06V10/774 , G06N3/0455 , G06N3/08 , G10L21/055 , G10L25/69
Abstract: 本说明书实施例提供一种训练评估模型、评估视频质量的方法及装置,在训练评估模型的方法中,获取样本集,其中包括,音画同步的第一视频样本。对第一视频样本进行音画分离,得到样本图像帧序列和对应的样本音频帧序列,并将其输入评估模型进行模型处理,该评估模型包括第一编码器和第二编码器。上述模型处理包括,利用第一编码器,对各样本图像帧进行编码,得到各样本图像表征,以及利用第二编码器,对各样本音频帧进行编码,得到各样本音频表征。以最小化第一损失为目标,调整第一编码器和第二编码器的参数,该第一损失正相关于,各样本图像表征与对应样本音频表征的不同模态间距离,以及各样本图像表征中相邻样本图像表征的同模态间距离。
-
公开(公告)号:CN116843798A
公开(公告)日:2023-10-03
申请号:CN202310810626.8
申请日:2023-07-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/00
Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
-
公开(公告)号:CN114998575A
公开(公告)日:2022-09-02
申请号:CN202210753302.0
申请日:2022-06-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/25 , G06V10/774 , G06V10/82
Abstract: 本公开披露了一种训练和使用目标检测模型的方法和装置。所述训练方法包括:将图像输入所述目标检测模型的特征提取网络,以获取所述图像的特征图,所述图像包含多个目标物,所述多个目标物均包括多个检测部位,所述多个检测部位包括第一检测部位和第二检测部位;将所述特征图输入所述目标检测模型的从属关系检测网络,以获取第一结果和第二结果,所述第一结果包括表征所述第一检测部位的检测数据,所述第二结果包括表征与所述第一检测部位属于同一个目标物的第二检测部位的检测数据;根据所述第一结果的损失和所述第二结果的损失,更新所述目标检测模型。
-
-
-
-
-
-
-
-
-