-
公开(公告)号:CN118675010A
公开(公告)日:2024-09-20
申请号:CN202410688413.7
申请日:2024-05-30
Applicant: 之江实验室
IPC: G06V10/774 , G06V10/82 , G06V20/40 , G06N3/0475 , G06N3/096 , H04N21/44 , H04N21/81
Abstract: 本发明公开了一种基于可微渲染器的视频生成大模型的数据集生成方法、系统及装置,所述方法包括:3D资产管理,获取场景构建所需的3D资产及模型,以及对应词汇描述;场景结构生成,基于场景的文本描述生成场景结构树;3D场景构建,构建场景的布局,结合3D资产生成3D场景;场景优化,在多个视角下进行可微渲染,利用稳定扩散模型和分数蒸馏采样损失进行场景优化;视频渲染,在3D场景中生成动态相机轨迹,渲染生成视频;视频重描述,基于视频基础模型生成关于生成视频的描述,作为视频的标签,构建数据集。本发明不仅能为各种应用提供必要的训练数据集,还能显著提高内容创建的效率和质量,有利于推动相关行业的技术进步和发展。
-
公开(公告)号:CN118612525A
公开(公告)日:2024-09-06
申请号:CN202410688392.9
申请日:2024-05-30
Applicant: 之江实验室
IPC: H04N21/854 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0475 , G06N3/096 , G06V20/40 , G06V20/70 , G06V10/26 , G06V10/28 , G06F18/25
Abstract: 本发明公开了一种文本引导的单目标物体轨迹掩码视频生成方法及系统,包括:对视频数据样本进行标注并获取二值化轨迹掩码视频;对经过图像重建任务预训练的变分自编码器进行微调,使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列,构建训练样本对;构建并训练基于Transformer编码器的单目标物体轨迹掩码扩散生成网络;利用训练好的扩散生成网络生成新的文本提示对应的目标物体二值化轨迹掩码视频。本发明能够有效地根据文本提示生成精确的目标物体轨迹掩码,为单目标可控轨迹的视频生成提供有效先验信息,提高生成视频中目标物体的运动一致性。
-