-
公开(公告)号:CN118864665A
公开(公告)日:2024-10-29
申请号:CN202410852086.4
申请日:2024-06-28
Applicant: 桂林电子科技大学
IPC: G06T13/00 , G06V10/774 , G06V10/80 , G06V20/40 , G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094 , G10L21/10 , G10L21/055 , G10L25/30
Abstract: 本发明属于计算机视觉和语音处理领域,涉及了Wav2Lip模型、对抗生成网络等模型架构,具体是指一种基于音频驱动的数字人脸视频生成方法,包括优化Wav2Lip模型过程,并以优化后的Wav2Lip模型生成视频,其特征在于,优化Wav2Lip模型过程获得模型优化后的权重文件,将对使用梅尔频谱和MFCC融合的方式进行音频特征的提取,生成的视频帧不变,然后使用GAN网络学习音频‑图像对之间的映射关系,Wav2Lip模型中的生成器网络负责生成逼真的嘴唇动作,将得到的权重文件保存为最终的训练结果,作为Wav2Lip模型优化后的最终成果。该方法最终生成的视频不仅具有更高的视觉质量,也提升了用户体验,使得模型在实际应用中更具实用性和广泛的适用性。