基于神经场的语音驱动数字人生成方法

    公开(公告)号:CN116825127A

    公开(公告)日:2023-09-29

    申请号:CN202311017166.X

    申请日:2023-08-14

    Abstract: 一种基于神经场的语音驱动数字人生成方法,包括如下步骤:S1、使用人脸模型构建可变形的数字人脸;S2、对给定语音的音频特征进行编码,进行音频特征到所述数字人脸的表情空间的映射;S3、基于神经场表达,根据音频特征驱动所述标准空间的数字人;其中,基于神经占据场与神经纹理场得到在标准空间的数字人,对于所述标准空间里的空间坐标,由神经位移场根据音频特征输出对应的位移。进一步地,步骤S3还使用人脸语义作为显式控制信号,进行基于人脸语义的眼睛控制。对比传统方法,本发明可获得更同步的人脸躯干驱动以及眼睛睁闭控制,在图像质量以及语音同步指标上都超过了传统方法。

    一种基于多文本控制的长动作生成方法

    公开(公告)号:CN117576277A

    公开(公告)日:2024-02-20

    申请号:CN202311581687.8

    申请日:2023-11-24

    Inventor: 张凯 陈文硕 曹阳

    Abstract: 本发明涉及深度学习以及动作生成技术领域,特别是涉及一种基于多文本控制的长动作生成方法,包括:获取若干文本序列,将所述文本序列输入预设的动作模型中,获取若干子动作;对所述子动作进行处理,并将处理后的子动作再次输入所述动作模型中,获取前后两段子动作间的转移态;基于所述转移态和所述转移态的前后两段子动作进行损失优化,当优化收敛后,将所述子动作和转移态进行拼接,获取长动作。本发明可以实现更自然、连贯的长动作生成,满足现实应用场景中对动作生成的需求,如电影制作、游戏开发、虚拟现实等领域。

    一种视频人体姿态估计方法及装置

    公开(公告)号:CN115909483A

    公开(公告)日:2023-04-04

    申请号:CN202211365041.1

    申请日:2022-11-03

    Inventor: 张凯 陈文硕

    Abstract: 本发明提供了一种视频人体姿态估计方法,包括以下步骤:输入视频并切割视频为图像;确定视频中每一个人的位置并裁剪;将裁剪后的图像输入到基于蒙皮多人线性模型的人体姿态估计方法中,得到结果数据,蒙皮多人线性模型为基于顶点的裸体人体三维模型;初始化隐空间序列,将数据输入动作先验条件变分自编码器,对齐关节点并计算生成器和观测的结果的平方误差,极小化平方误差;输出人体姿态估计结果。本发明的方法具有较强的鲁棒性;本方法能够优化蒙皮多人线性模型表示的3D结果,解决先验条件变分自编码器无法优化蒙皮多人线性模型结果的问题,本发明能够防止产生深度歧义,丢失3D信息的情况,从而能够产生平滑、精确的视频人体姿态估计结果。

Patent Agency Ranking