基于潜在一致性模型的视频生成方法及装置

    公开(公告)号:CN118741263A

    公开(公告)日:2024-10-01

    申请号:CN202410952868.5

    申请日:2024-07-16

    Abstract: 本发明提供了一种基于潜在一致性模型的视频生成方法及装置,包括:获取待处理视频的信息和文本描述;对所述待处理视频第一帧进行时空条件处理,采用图像生成中的一致性蒸馏策略,结合所述时空条件处理,对现有的潜在扩散模型进行优化,对所述处理后的信息与文本描述进行潜在一致性模型训练;其中,所述潜在一致性模型训练执行前向扩散操作,生成噪声视频;将所述生成的噪声视频输入到学生模型和教师模型中,以预测去噪后的视频,最终生成视频。本发明能够有效减少视频生成过程中对大量采样步骤的需求,并保持视频在空间和运动方面的一致性,从而确保高质量视频的高效合成。

Patent Agency Ranking