一种基于3DGS的高保真语音驱动数字人合成方法

    公开(公告)号:CN119991888A

    公开(公告)日:2025-05-13

    申请号:CN202510457933.1

    申请日:2025-04-14

    Abstract: 本发明公开了一种基于3DGS的高保真语音驱动数字人合成方法,首先,训练静态数字人模型,基于3D Gaussian Splatting构建,并用空间判别器提升图像质量,捕捉数字人基础形状和外观。随后,训练动态驱动网络,包含可优化全局提示、渐进式条件属性预测网络模块和双重判别器架构,其中,可优化全局提示模块用于稳定数字人面部几何结构,防止动画过程中的漂移;渐进式条件属性预测网络模块用于高效且时序连贯地预测数字人模型的动态高斯参数;双判别器架构模块用于提升合成数字人动画的真实感和时间一致性。本发明适用于语音驱动的数字人动画合成,能够有效提升合成数字人动画的真实感、效率和结构连贯性,并实现实时渲染。

    基于数据驱动压缩与自适应分裂的高效三维重建方法

    公开(公告)号:CN119206088A

    公开(公告)日:2024-12-27

    申请号:CN202411676372.6

    申请日:2024-11-22

    Abstract: 本发明公开了基于数据驱动压缩与自适应分裂的高效三维重建方法,包括:获取多视角图像生成3D高斯;构建掩码生成网络和判别网络,掩码生成网络生成掩码,筛选被消除的3D高斯;通过可微光栅渲染器优化3D高斯的属性;利用掩码进行高斯选择和消除,生成部分高斯被消除后的渲染图;若达到预设迭代次数,则根据3D高斯对场景的贡献进行保留或消除;否则进行高斯分裂或复制操作。通过掩码生成网络和判别网络的对抗性学习以及重建损失优化,在减少高斯数量的同时实现高精度的三维场景重建。本发明适用于各种三维重建场景,能够大幅提高渲染速度,减少计算资源消耗,同时保持重建结果的视觉质量,适用于虚拟现实、增强现实、电影特效等领域。

Patent Agency Ranking