基于音频驱动的数字人脸视频生成方法

    公开(公告)号:CN118864665A

    公开(公告)日:2024-10-29

    申请号:CN202410852086.4

    申请日:2024-06-28

    Abstract: 本发明属于计算机视觉和语音处理领域,涉及了Wav2Lip模型、对抗生成网络等模型架构,具体是指一种基于音频驱动的数字人脸视频生成方法,包括优化Wav2Lip模型过程,并以优化后的Wav2Lip模型生成视频,其特征在于,优化Wav2Lip模型过程获得模型优化后的权重文件,将对使用梅尔频谱和MFCC融合的方式进行音频特征的提取,生成的视频帧不变,然后使用GAN网络学习音频‑图像对之间的映射关系,Wav2Lip模型中的生成器网络负责生成逼真的嘴唇动作,将得到的权重文件保存为最终的训练结果,作为Wav2Lip模型优化后的最终成果。该方法最终生成的视频不仅具有更高的视觉质量,也提升了用户体验,使得模型在实际应用中更具实用性和广泛的适用性。

Patent Agency Ranking