Patent search ap:("桂林电子科技大学") AND inv:"郭星星" Page 1

1.

发明公开
基于音频驱动的数字人脸视频生成方法审中-实审

公开(公告)号：CN118864665A

公开(公告)日：2024-10-29

申请号：CN202410852086.4

申请日：2024-06-28

Applicant: 桂林电子科技大学

Inventor： 郭星星 , 肖雁南 , 温雅媛 , 温佩芝

IPC: G06T13/00 , G06V10/774 , G06V10/80 , G06V20/40 , G06V40/20 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094 , G10L21/10 , G10L21/055 , G10L25/30

Abstract: 本发明属于计算机视觉和语音处理领域，涉及了Wav2Lip模型、对抗生成网络等模型架构，具体是指一种基于音频驱动的数字人脸视频生成方法，包括优化Wav2Lip模型过程，并以优化后的Wav2Lip模型生成视频，其特征在于，优化Wav2Lip模型过程获得模型优化后的权重文件，将对使用梅尔频谱和MFCC融合的方式进行音频特征的提取，生成的视频帧不变，然后使用GAN网络学习音频‑图像对之间的映射关系，Wav2Lip模型中的生成器网络负责生成逼真的嘴唇动作，将得到的权重文件保存为最终的训练结果，作为Wav2Lip模型优化后的最终成果。该方法最终生成的视频不仅具有更高的视觉质量，也提升了用户体验，使得模型在实际应用中更具实用性和广泛的适用性。

Patent Agency Ranking