-
公开(公告)号:CN117059123A
公开(公告)日:2023-11-14
申请号:CN202310928326.X
申请日:2023-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于手势动作图的小样本数字人语音驱动动作重演方法,方法包括:对参考讲话数据进行节奏点检测、关键词检测和运动连续性检测,分别得到第一节奏点的位置、第一关键词和对应的位置和非自然帧间连续关系;基于第一节奏点位置、第一关键词和对应的位置以及非自然帧间连续关系,构建手势运动图;对测试讲话数据进行节奏点检测、关键词检测,分别得到第二节奏点位置、第二关键词和对应的位置;基于第二节奏点位置、第二关键词和对应的位置,确定搜索分段,并基于搜索分段得到重演手势;基于手势风格融合网络输出融合手势,基于融合手势和节奏性手势,确定最终手势,基于最终手势驱动数字人动作重演,提高了动作重演的准确性和可靠性。
-
公开(公告)号:CN116524074A
公开(公告)日:2023-08-01
申请号:CN202310296375.6
申请日:2023-03-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例提供了一种数字人手势生成的方法、装置、设备和存储介质,该方法包括:获取待生成数字人手势的目标音频文件;基于脚本生成模型,确定所述目标音频文件对应的动作发生序列;基于所述动作发生序列以及手势生成模型,控制生成的代表性手势和节奏性手势合成为所述目标音频文件对应的数字人手势。本发明提供的方法通过由脚本生成模型确定的目标音频文件对应的动作发生序列,有效控制同步语音下的数字人手势合成,将手势解耦并建模得到代表性手势生成模型和节奏性手势生成模型,结合手势生成模型分别得到的代表性手势和节奏性手势,可以生成更自然且丰富的手势,使数字人手势的效果更真实。
-
公开(公告)号:CN118737185A
公开(公告)日:2024-10-01
申请号:CN202410722280.0
申请日:2024-06-05
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种基于可逆扩散的语音驱动生成动作统一编辑方法及装置。该方法包括:获取训练好的扩散模型,并将所述扩散模型可逆化,得到可逆扩散模型;所述扩散模型用于进行语音驱动动作生成任务;以原始讲话数据为条件,利用所述可逆扩散模型重建生成匹配所述原始讲话数据的生成动作数据的原始噪声;基于编辑任务和所述原始噪声对所述生成动作数据进行编辑操作,得到目标生成动作。本申请提供的基于可逆扩散的语音驱动生成动作统一编辑方法及装置,利用可逆扩散模型的逆向噪声重建过程获得原始噪声,使能够基于原始噪声自动化进行生成动作编辑,减少了人力物力资源的浪费,节省了成本。
-
-