-
公开(公告)号:CN119653201A
公开(公告)日:2025-03-18
申请号:CN202411702267.5
申请日:2024-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/854 , H04N21/44 , H04N21/234 , H04N21/235 , H04N21/84 , G06F18/213 , G06F40/30
Abstract: 本说明书提供一种视频生成、模型的训练方法及系统。其在获得视频描述信息和N个语义扩展指令之后,基于预先训练好的视频生成模型中的语义特征生成网络对视频描述信息和N个语义扩展指令进行语义提取得到目标语义特征,并通过视频生成模型中的视频生成网络基于目标语义特征进行视频生成,得到并输出与视频描述信息的语义相符的目标视频。在该方法中,由于语义特征生成网络和视频生成网络在视频生成模型的训练过程中被联合训练过,因此语义特征生成网络可以生成更贴合视频生成网络需求的目标语义特征,视频生成网络可以更加准确地依据目标语义特征来生成高质量的目标视频,从而提高了视频生成模型的整体性能和目标视频的生成效果。
-
公开(公告)号:CN117541459A
公开(公告)日:2024-02-09
申请号:CN202311542623.7
申请日:2023-11-17
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T3/04 , G06T5/70 , G06T5/50 , G06V40/16 , G06V10/774 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例涉及一种图像生成模型的训练方法及装置,图像生成模型包含人脸一致性模块和训练好的扩散模型,扩散模型包括加噪模块和第一去噪网络,所述方法包括:将原始人脸图像输入加噪模块,得到第一噪声图像,然后将第一噪声图像输入第一去噪网络,得到具有第一风格的第一人脸图像,接着将第一噪声图像输入由第一去噪网络和人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像,接下来根据原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失,根据第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失,最后基于第一损失与第二损失的总损失,调整人脸一致性模块的参数。
-
公开(公告)号:CN117351369A
公开(公告)日:2024-01-05
申请号:CN202311296536.8
申请日:2023-10-08
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 公开了一种用于处理遥感影像的方法。该方法包括:对遥感影像时间序列执行特征提取,以得到时空特征;对该遥感场景的第二分辨率的单张遥感影像执行特征提取,以得到多个不同尺度的特征,其中该第一尺度特征与时空特征具有相同分辨率;以及对该时空特征和该第一尺度特征执行特征融合。还公开了相应的系统、装置和计算机可读存储介质。
-
公开(公告)号:CN116934883A
公开(公告)日:2023-10-24
申请号:CN202310904141.5
申请日:2023-07-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对目标序列进行模态转换的方法及装置,在模态转换的方法中,获取第一模态序列,其中包括若干第一模态特征数据。通过编码器,对各个第一模态特征数据逐个进行编码,得到对应的各个第一模态编码,各个第一模态编码形成第一编码序列。通过第一解码器,并行地基于各个第一模态编码,预测各自对应的各个第二模态编码,各个第二模态编码形成第二编码序列。通过第二解码器,基于第一编码序列,利用交叉注意力机制,对第二编码序列进行修正,得到修正编码序列。根据修正编码序列,确定对应于第一模态序列的第二模态序列,该第二模态序列包括若干第二模态特征数据,其用于驱动虚拟形象影像的合成。
-
公开(公告)号:CN116797877A
公开(公告)日:2023-09-22
申请号:CN202310762872.0
申请日:2023-06-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/774 , G10L25/57 , G06V10/80 , G06V20/40 , G06V40/16
Abstract: 本说明书实施例提供了图像生成模型的训练方法及装置、图像生成方法及装置。图像生成模型包括生成器,该训练方法包括:获取训练样本,其中包括语音信息、唇形与语音信息同步的真实图像帧序列、通过对真实图像帧序列中的图像帧的下半脸区域进行遮挡处理而获得的遮挡图像帧序列、脸部参考图像帧序列和牙齿参考图像,真实图像帧序列和脸部参考图像帧序列中的图像帧为同一对象的脸部图像;将语音信息、遮挡图像帧序列、脸部参考图像帧序列和牙齿参考图像输入生成器进行模型处理,得到针对遮挡图像帧序列中的图像帧的下半脸区域进行重建的重建图像帧序列;基于重建图像帧序列和真实图像帧序列确定预测损失;以最小化预测损失为目标,调整生成器的参数。
-
公开(公告)号:CN116644185A
公开(公告)日:2023-08-25
申请号:CN202310201791.3
申请日:2023-02-23
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 公开了一种用于生成遥感领域知识图谱的方法,包括:至少获取遥感影像数据和文本数据;对该遥感影像数据和该文本数据执行实体发现和关系发现,以标识实体以及实体间的关系;以及基于该实体和该实体间的关系来构建遥感领域知识图谱。本申请还涉及用于生成遥感领域知识图谱的系统、装置和介质。
-
公开(公告)号:CN115661514A
公开(公告)日:2023-01-31
申请号:CN202211265295.6
申请日:2022-10-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06Q30/018
Abstract: 本说明书公开了一种篡改检测方法、装置、计算机程序产品、存储介质及设备,其中方法包括:获取商户认证图像,基于预训练的篡改检测模型提取所述商户认证图像中的篡改特征,并基于所述篡改特征生成所述商户认证图像对应的篡改检测结果,若所述篡改检测结果指示所述商户认证图像被篡改,则输出认证失败信息,可以对篡改的商户认证图像进行准确识别并拦截。
-
公开(公告)号:CN114092804A
公开(公告)日:2022-02-25
申请号:CN202111309422.3
申请日:2021-11-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种遥感图像的识别方法和装置。该方法包括:获取对应于同一地块的至少两张遥感图像;该至少两张遥感图像是在至少两个不同时间上对该同一地块进行拍摄后得到的;对所述至少两张遥感图像分别进行特征提取,得到至少两张原始特征图;根据每一张原始特征图对应的遥感图像的拍摄时间,对所述至少两张原始特征图在时序上进行信息融合,得到融合特征图;利用该融合特征图,对遥感图像进行识别。本说明书能够更为准确地对遥感图像进行识别。
-
公开(公告)号:CN113963352A
公开(公告)日:2022-01-21
申请号:CN202111111792.6
申请日:2021-09-22
Applicant: 支付宝(杭州)信息技术有限公司 , 蚂蚁区块链科技(上海)有限公司
IPC: G06V30/146 , G06K7/14 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q30/02
Abstract: 本公开披露了一种识别图片和训练神经网络的方法和装置。方法包括:接收扫码图片,扫码图片包含商品的营销活动对应的活动码;利用图像编码模块对扫码图片进行特征提取,得到第一图像特征;利用注意力模块对第一图像特征进行处理,得到第一图像特征的权重;利用第一图像特征的权重对第一图像特征进行加权,得到第二图像特征;根据第二图像特征对扫码图片进行识别,得到识别结果,识别结果用于确定扫码图片是否为对商品的实体上的活动码进行扫描后得到的图片。
-
公开(公告)号:CN119629426A
公开(公告)日:2025-03-14
申请号:CN202411746608.9
申请日:2024-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/472 , G06T7/20 , G06N20/00 , H04N21/44
Abstract: 本申请一个或多个实施例提供一种图生视频模型的训练方法、装置、设备和存储介质,所述方法包括:获取第一样本视频,并从所述第一样本视频中提取图像帧;获取由训练完成的运动估计模型针对所述第一样本视频进行运动强度评估,得到的所述第一样本视频的多种类型的运动强度数据;将所述图像帧和所述多种类型的运动强度数据输入预设的图生视频模型,由所述图生视频模型基于所述图像帧和所述多种类型的运动强度数据进行计算,生成对应的视频;基于生成的视频确定训练损失,并在根据所述损失完成针对所述图生视频模型的模型参数的调整后,确定完成针对所述图生视频模型的训练。
-
-
-
-
-
-
-
-
-