-
公开(公告)号:CN119006663A
公开(公告)日:2024-11-22
申请号:CN202411061800.4
申请日:2024-08-05
Applicant: 北京邮电大学
IPC: G06T13/20 , G10L19/008 , G06T3/06 , G06T15/20 , G06V40/16 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。