语音驱动说话人头动视频合成增强方法、系统和存储介质

    公开(公告)号:CN115294622B

    公开(公告)日:2023-04-18

    申请号:CN202210670740.0

    申请日:2022-06-15

    Abstract: 本发明提供一种语音驱动说话人头动视频合成增强方法、系统和存储介质,方法包括:基于口型驱动语音、头动驱动视频和目标说话人脸图像合成待增强的说话人头动视频;从目标说话人脸图像提取三维人脸特征和头部正则关键点;基于目标人图片得到目标人头动矩阵和目标人表情形变指标;基于待增强的说话人头动视频得到待增强视频头动矩阵和待增强视频表情形变指标;利用目标人头动矩阵和目标人表情形变指标得到目标人关键点;利用待增强视频头动矩阵和待增强视频表情形变指标得到驱动关键点;基于目标人关键点和驱动关键点得到与关键点个数对应的三维运动场,生成三维运动遮罩,基于三维运动遮罩、目标人三维人脸特征合成增强后的目标说话人头动视频。

    基于常识推理的语音合成模型训练方法、装置及合成方法

    公开(公告)号:CN117238275A

    公开(公告)日:2023-12-15

    申请号:CN202311071256.7

    申请日:2023-08-24

    Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

    一种文本生成音频方法及系统

    公开(公告)号:CN117854475B

    公开(公告)日:2025-04-01

    申请号:CN202311844353.5

    申请日:2023-12-28

    Abstract: 本发明提供一种文本生成音频方法及系统,所述方法的步骤包括扩散模型训练和音频推理;在所述扩散模型训练的步骤中,对训练音频数据进行梅尔转换得到第一梅尔频谱,将所述第一梅尔频谱构建为第一梅尔图像,将所述第一梅尔图像通过图像编码器编码为图像特征向量;获取训练音频数据对应的训练文本数据,将训练文本数据通过文本编码器编码为训练文本特征向量;将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对扩散模型进行训练;在音频推理的步骤中,基于待生成文本得到待生成文本特征向量,将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中,得到目标图像特征向量,基于所述目标图像特征向量得到目标音频。

    基于检索增强生成的语音合成方法及装置

    公开(公告)号:CN118486293B

    公开(公告)日:2025-01-24

    申请号:CN202410673948.7

    申请日:2024-05-28

    Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。

    基于对比学习的语音合成模型训练方法、装置及合成方法

    公开(公告)号:CN117392972B

    公开(公告)日:2024-08-27

    申请号:CN202311358990.1

    申请日:2023-10-19

    Abstract: 本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

    面向语音对话场景的语音合成方法、系统及存储介质

    公开(公告)号:CN115578995A

    公开(公告)日:2023-01-06

    申请号:CN202211563513.4

    申请日:2022-12-07

    Abstract: 本发明提供一种面向语音对话场景的语音合成方法、系统及存储介质,包括:基于待合成语音文本数据确定文本嵌入序列,得到当前对话人嵌入向量和历史对话人信息嵌入向量;基于句子级别的文本嵌入向量、语音嵌入向量与历史对话人信息嵌入向量确定第一上下文特征和第二上下文特征;基于词级别的文本嵌入向量、历史对话人信息嵌入向量及文本嵌入序列确定文本角度的第一韵律风格特征;基于词级别的语音嵌入向量、历史对话人信息嵌入向量以及文本嵌入序列确定语音角度的第二韵律风格特征;基于第一上下文特征、第二上下文特征、第一韵律风格特征、第二韵律风格特征、文本嵌入序列及当前对话人嵌入向量得到预测的梅尔频谱,基于梅尔频谱确定音频。

    基于检索增强生成的语音合成方法及装置

    公开(公告)号:CN118486293A

    公开(公告)日:2024-08-13

    申请号:CN202410673948.7

    申请日:2024-05-28

    Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。

    语音驱动说话人头动视频合成增强方法、系统和存储介质

    公开(公告)号:CN115294622A

    公开(公告)日:2022-11-04

    申请号:CN202210670740.0

    申请日:2022-06-15

    Abstract: 本发明提供一种语音驱动说话人头动视频合成增强方法、系统和存储介质,方法包括:基于口型驱动语音、头动驱动视频和目标说话人脸图像合成待增强的说话人头动视频;从目标说话人脸图像提取三维人脸特征和头部正则关键点;基于目标人图片得到目标人头动矩阵和目标人表情形变指标;基于待增强的说话人头动视频得到待增强视频头动矩阵和待增强视频表情形变指标;利用目标人头动矩阵和目标人表情形变指标得到目标人关键点;利用待增强视频头动矩阵和待增强视频表情形变指标得到驱动关键点;基于目标人关键点和驱动关键点得到与关键点个数对应的三维运动场,生成三维运动遮罩,基于三维运动遮罩、目标人三维人脸特征合成增强后的目标说话人头动视频。

    一种文本生成音频方法及系统

    公开(公告)号:CN117854475A

    公开(公告)日:2024-04-09

    申请号:CN202311844353.5

    申请日:2023-12-28

    Abstract: 本发明提供一种文本生成音频方法及系统,所述方法的步骤包括扩散模型训练和音频推理;在所述扩散模型训练的步骤中,对训练音频数据进行梅尔转换得到第一梅尔频谱,将所述第一梅尔频谱构建为第一梅尔图像,将所述第一梅尔图像通过图像编码器编码为图像特征向量;获取训练音频数据对应的训练文本数据,将训练文本数据通过文本编码器编码为训练文本特征向量;将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对扩散模型进行训练;在音频推理的步骤中,基于待生成文本得到待生成文本特征向量,将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中,得到目标图像特征向量,基于所述目标图像特征向量得到目标音频。

    基于常识推理的语音合成模型训练方法、装置及合成方法

    公开(公告)号:CN117238275B

    公开(公告)日:2024-03-19

    申请号:CN202311071256.7

    申请日:2023-08-24

    Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

Patent Agency Ranking