一种语音驱动的多表情3D面部动画生成方法及系统

    公开(公告)号:CN119784902A

    公开(公告)日:2025-04-08

    申请号:CN202411081771.8

    申请日:2024-08-08

    Inventor: 宋文凤 王选 侯霞

    Abstract: 本发明公开了一种语音驱动的多表情3D面部动画生成方法及系统,涉及计算机动画及虚拟现实领域。获取输入的音频,将音频首先使用微调后的编码器进行编码,获得输入音频的特征;接下来使用全连接神经网络进行特征降维,以得到音频特征的潜在代码;将潜在音频代码和情绪代码以及扩散步数输进面部去噪模型中,生成潜在面部运动代码;将面部运动代码使用码本进行离散量化处理,获得码本中接近的潜在面部运动代码;将离散化后的潜在面部运动代码进行解码得到面部运动,将此面部运动与静止的面部模板相加,获得最终的完整面部运动序列。本发明生成高质量、与输入音频和情绪标签紧密同步的3D面部动画,为创建情感丰富的虚拟角色提供了新的有效手段。

Patent Agency Ranking