-
公开(公告)号:CN114049678A
公开(公告)日:2022-02-15
申请号:CN202210023895.5
申请日:2022-01-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。
-
公开(公告)号:CN116246006A
公开(公告)日:2023-06-09
申请号:CN202310212243.0
申请日:2023-03-01
Applicant: 之江实验室
Abstract: 基于轻量装置的时变光场的动态人脸高光材质提取算法,包括以下步骤:(1)根据开源的人脸皮肤反射参数统计数据库Merl/ETH Skin,人脸高光以Torrance‑Sparrow模型表达根据开源的人脸皮肤反射参数统计数据库Merl/ETH Skin,人脸高光以Torrance‑Sparrow模型表达;(2)将皮肤的Torrance‑Sparrow模型转为Rusinkiewicz Half‑vector参数化表达方式;(3)通过至少三个与不同Half‑vector的夹角解出法向;(4)获取法向后,再代入Torrance‑sparrow模型计算其高光的反射强度。本发明还提供基于轻量级设备的时序变化光场的动态人脸高光材质提取算法的装置。本发明充分利用人脸皮肤材质的反射模型的,提取的法向具有物理依据;不超过三个光照模式就能实现高光参数的提取,时间间隔少,适合人脸动态场景。
-
公开(公告)号:CN115311731B
公开(公告)日:2023-01-31
申请号:CN202211235204.4
申请日:2022-10-10
Applicant: 之江实验室
Abstract: 本发明公开了一种手语数字人的表情生成方法和装置,包括以下步骤:步骤S1:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;步骤S2:获取手语语句的词目序列和手语语句的情感属性;步骤S3:估计所述音素序列中每个音素的持续时长;步骤S4:得到平滑后的口型混合变形权重序列;步骤S5:生成情感混合变形权重序列;步骤S6:得到混合变形权重;步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画。本发明将口型及情感的表情合成应用到手语数字人当中,使得手语数字人更加生动形象,并大大提升手语数字人在听障人群中的可理解性,具有高稳定性、算法复杂度低的优点,能够进行实时运行。
-
公开(公告)号:CN115311731A
公开(公告)日:2022-11-08
申请号:CN202211235204.4
申请日:2022-10-10
Applicant: 之江实验室
Abstract: 本发明公开了一种手语数字人的表情生成方法和装置,包括以下步骤:步骤S1:将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库;步骤S2:获取手语语句的词目序列和手语语句的情感属性;步骤S3:估计所述音素序列中每个音素的持续时长;步骤S4:得到平滑后的口型混合变形权重序列;步骤S5:生成情感混合变形权重序列;步骤S6:得到混合变形权重;步骤S7:将所述混合变形权重应用到手语数字人人脸模型上,生成手语表情动画。本发明将口型及情感的表情合成应用到手语数字人当中,使得手语数字人更加生动形象,并大大提升手语数字人在听障人群中的可理解性,具有高稳定性、算法复杂度低的优点,能够进行实时运行。
-
公开(公告)号:CN114566189A
公开(公告)日:2022-05-31
申请号:CN202210454745.X
申请日:2022-04-28
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。
-
公开(公告)号:CN115937369A
公开(公告)日:2023-04-07
申请号:CN202211455438.X
申请日:2022-11-21
Applicant: 之江实验室
Abstract: 本发明涉及一种表情动画生成方法,包括:构建表情动画生成模型,表情动画生成模型包括文本特征编码器、语音特征编码器、表情解码器和线性层;构建训练数据集;使用训练数据集对表情动画生成模型进行训练;获取相对应的文本数据和语音数据,基于文本数据和语音数据获取文本特征和语音特征,将文本特征和语音特征输入训练好的表情动画生成模型,得到3D表情动画数据;将3D表情动画数据重定向到目标数字人脸上,在目标数字人脸上生成表情动画。与现有技术相比,本发明只需要使用语音数据和文本数据就可以完成整个人脸的表情动画生成,硬件成本和计算复杂度低,而且,通过将3D表情动画数据重定向到目标数字人脸,输出更为灵活。
-
公开(公告)号:CN113838174B
公开(公告)日:2022-06-10
申请号:CN202111412881.4
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。
-
公开(公告)号:CN113378806B
公开(公告)日:2021-12-14
申请号:CN202110934743.6
申请日:2021-08-16
Applicant: 之江实验室
IPC: G06K9/00 , G06K9/62 , G06T13/40 , G06N3/04 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/63
Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
-
公开(公告)号:CN119377076A
公开(公告)日:2025-01-28
申请号:CN202411941286.3
申请日:2024-12-26
Applicant: 之江实验室
IPC: G06F11/34
Abstract: 本说明书公开了一种任务执行方法、装置、存储介质以及电子设备,具体包括:针对每个目标芯片,根据芯片信息和目标模型的模型数据,对该目标芯片执行模型训练任务时的参数进行参数配置。通过配置后的该目标芯片执行模型训练任务,收集模型训练日志数据,确定该目标芯片的性能评估值。根据各目标芯片的性能评估值确定适配目标芯片,通过适配目标芯片执行目标任务。通过此方法可以有效提高针对异构芯片的性能评估效率,并且本说明书对各异构芯片的评测方式更加精准且一致,使得各异构芯片之间的性能差距更为直观,提高最佳适配芯片确定效率的同时,为对芯片进行性能优化,还是为模型训练选择更加适合的应用芯片都提供了更为实用的理论依据和帮助。
-
公开(公告)号:CN115984434A
公开(公告)日:2023-04-18
申请号:CN202310004861.6
申请日:2023-01-03
Applicant: 之江实验室
Abstract: 本申请提供一种情感表达的人脸动画生成方法、装置和可读存储介质。其中,本申请的情感表达的人脸动画生成方法,获取用户输入的语音;将语音输入至训练好的表情动画生成模型,以输出预测的三维人脸的表情动画的PCA系数;训练好的表情动画生成模型是使用语音样本集输入至表情动画生成模型训练得到的;将所预测的表情动画的PCA系数投影为三维人脸的表情动画数据;将所投影的表情动画数据重定向在目标数字人上。
-
-
-
-
-
-
-
-
-