Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"龚镖" Page 1

1.

发明公开
视频生成、模型的训练方法及系统审中-实审

公开(公告)号：CN119653201A

公开(公告)日：2025-03-18

申请号：CN202411702267.5

申请日：2024-11-25

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 龚镖 , 谭帅 , 郑丹丹 , 陈景东 , 杨铭

IPC: H04N21/854 , H04N21/44 , H04N21/234 , H04N21/235 , H04N21/84 , G06F18/213 , G06F40/30

Abstract: 本说明书提供一种视频生成、模型的训练方法及系统。其在获得视频描述信息和N个语义扩展指令之后，基于预先训练好的视频生成模型中的语义特征生成网络对视频描述信息和N个语义扩展指令进行语义提取得到目标语义特征，并通过视频生成模型中的视频生成网络基于目标语义特征进行视频生成，得到并输出与视频描述信息的语义相符的目标视频。在该方法中，由于语义特征生成网络和视频生成网络在视频生成模型的训练过程中被联合训练过，因此语义特征生成网络可以生成更贴合视频生成网络需求的目标语义特征，视频生成网络可以更加准确地依据目标语义特征来生成高质量的目标视频，从而提高了视频生成模型的整体性能和目标视频的生成效果。

2.

发明公开
图生视频模型的训练方法、装置、设备和存储介质审中-实审

公开(公告)号：CN119629426A

公开(公告)日：2025-03-14

申请号：CN202411746608.9

申请日：2024-11-29

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 龚镖 , 石书玮 , 郑丹丹 , 陈景东 , 杨铭

IPC: H04N21/472 , G06T7/20 , G06N20/00 , H04N21/44

Abstract: 本申请一个或多个实施例提供一种图生视频模型的训练方法、装置、设备和存储介质，所述方法包括：获取第一样本视频，并从所述第一样本视频中提取图像帧；获取由训练完成的运动估计模型针对所述第一样本视频进行运动强度评估，得到的所述第一样本视频的多种类型的运动强度数据；将所述图像帧和所述多种类型的运动强度数据输入预设的图生视频模型，由所述图生视频模型基于所述图像帧和所述多种类型的运动强度数据进行计算，生成对应的视频；基于生成的视频确定训练损失，并在根据所述损失完成针对所述图生视频模型的模型参数的调整后，确定完成针对所述图生视频模型的训练。

3.

发明公开
视频生成方法、视频生成模型的训练方法以及系统审中-实审

公开(公告)号：CN119545042A

公开(公告)日：2025-02-28

申请号：CN202411702256.7

申请日：2024-11-25

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 龚镖 , 谭帅 , 郑丹丹 , 陈景东 , 杨铭

IPC: H04N21/234 , H04N21/44 , H04N21/81 , H04N21/854 , G06T5/50 , G06T3/4038 , G06V10/764 , G06V10/774 , G06V10/77 , G06N5/04 , G06N3/0455 , G06N3/08

Abstract: 本说明书实施例提供一种视频生成方法、视频生成模型的训练方法以及系统。该视频生成方法被配置为通过训练好的包括显式特征提取网络和扩散网络的视频生成模型进行视频生成，包括：获得展示第一对象的运动过程的参考视频和展示第二对象的形象的参考图像，对参考视频中的第一对象的骨架进行提取得到骨架视频，对参考图像进行特征提取得到图像特征，将该图像特征和该骨架视频输入显式特征提取网络得到显式运动特征，并将该显式运动特征和该参考图像输入扩散网络得到展示第二对象的运动过程的目标视频；其中，在视频生成模型的训练过程中，输入至显式特征提取网络的骨架视频为对样本视频中的样本对象的至少部分骨架进行变化后的骨架视频。

4.

发明公开
视频数据集构建、模型训练、视频生成方法及装置审中-实审

公开(公告)号：CN119450026A

公开(公告)日：2025-02-14

申请号：CN202411535402.1

申请日：2024-10-30

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 张宇欣 , 郑丹丹 , 龚镖 , 陈景东 , 杨铭

IPC: H04N13/275 , G06T15/50 , G06N3/0455 , G06N3/08

Abstract: 本说明书一个或多个实施例提供了一种视频数据集构建方法、模型训练方法、视频生成方法及装置。其中，视频数据集构建方法中，在3D照明网络中构建了大量的照明轨迹，然后生成了每条照明轨迹对应的表征光照信息的白板图像的视频和表征3D模型的模型视频。之后，基于表征光照信息的视频和表征模型信息的视频生成了用于训练文本视频生成模型的视频数据集。

Patent Agency Ranking