-
公开(公告)号:CN119653201A
公开(公告)日:2025-03-18
申请号:CN202411702267.5
申请日:2024-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/854 , H04N21/44 , H04N21/234 , H04N21/235 , H04N21/84 , G06F18/213 , G06F40/30
Abstract: 本说明书提供一种视频生成、模型的训练方法及系统。其在获得视频描述信息和N个语义扩展指令之后,基于预先训练好的视频生成模型中的语义特征生成网络对视频描述信息和N个语义扩展指令进行语义提取得到目标语义特征,并通过视频生成模型中的视频生成网络基于目标语义特征进行视频生成,得到并输出与视频描述信息的语义相符的目标视频。在该方法中,由于语义特征生成网络和视频生成网络在视频生成模型的训练过程中被联合训练过,因此语义特征生成网络可以生成更贴合视频生成网络需求的目标语义特征,视频生成网络可以更加准确地依据目标语义特征来生成高质量的目标视频,从而提高了视频生成模型的整体性能和目标视频的生成效果。
-
公开(公告)号:CN119545042A
公开(公告)日:2025-02-28
申请号:CN202411702256.7
申请日:2024-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/234 , H04N21/44 , H04N21/81 , H04N21/854 , G06T5/50 , G06T3/4038 , G06V10/764 , G06V10/774 , G06V10/77 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例提供一种视频生成方法、视频生成模型的训练方法以及系统。该视频生成方法被配置为通过训练好的包括显式特征提取网络和扩散网络的视频生成模型进行视频生成,包括:获得展示第一对象的运动过程的参考视频和展示第二对象的形象的参考图像,对参考视频中的第一对象的骨架进行提取得到骨架视频,对参考图像进行特征提取得到图像特征,将该图像特征和该骨架视频输入显式特征提取网络得到显式运动特征,并将该显式运动特征和该参考图像输入扩散网络得到展示第二对象的运动过程的目标视频;其中,在视频生成模型的训练过程中,输入至显式特征提取网络的骨架视频为对样本视频中的样本对象的至少部分骨架进行变化后的骨架视频。
-