-
公开(公告)号:CN117392972B
公开(公告)日:2024-08-27
申请号:CN202311358990.1
申请日:2023-10-19
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN115578995A
公开(公告)日:2023-01-06
申请号:CN202211563513.4
申请日:2022-12-07
Applicant: 北京邮电大学
Abstract: 本发明提供一种面向语音对话场景的语音合成方法、系统及存储介质,包括:基于待合成语音文本数据确定文本嵌入序列,得到当前对话人嵌入向量和历史对话人信息嵌入向量;基于句子级别的文本嵌入向量、语音嵌入向量与历史对话人信息嵌入向量确定第一上下文特征和第二上下文特征;基于词级别的文本嵌入向量、历史对话人信息嵌入向量及文本嵌入序列确定文本角度的第一韵律风格特征;基于词级别的语音嵌入向量、历史对话人信息嵌入向量以及文本嵌入序列确定语音角度的第二韵律风格特征;基于第一上下文特征、第二上下文特征、第一韵律风格特征、第二韵律风格特征、文本嵌入序列及当前对话人嵌入向量得到预测的梅尔频谱,基于梅尔频谱确定音频。
-
公开(公告)号:CN117238275A
公开(公告)日:2023-12-15
申请号:CN202311071256.7
申请日:2023-08-24
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN117238275B
公开(公告)日:2024-03-19
申请号:CN202311071256.7
申请日:2023-08-24
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN117392972A
公开(公告)日:2024-01-12
申请号:CN202311358990.1
申请日:2023-10-19
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN115578995B
公开(公告)日:2023-03-24
申请号:CN202211563513.4
申请日:2022-12-07
Applicant: 北京邮电大学
Abstract: 本发明提供一种面向语音对话场景的语音合成方法、系统及存储介质,包括:基于待合成语音文本数据确定文本嵌入序列,得到当前对话人嵌入向量和历史对话人信息嵌入向量;基于句子级别的文本嵌入向量、语音嵌入向量与历史对话人信息嵌入向量确定第一上下文特征和第二上下文特征;基于词级别的文本嵌入向量、历史对话人信息嵌入向量及文本嵌入序列确定文本角度的第一韵律风格特征;基于词级别的语音嵌入向量、历史对话人信息嵌入向量以及文本嵌入序列确定语音角度的第二韵律风格特征;基于第一上下文特征、第二上下文特征、第一韵律风格特征、第二韵律风格特征、文本嵌入序列及当前对话人嵌入向量得到预测的梅尔频谱,基于梅尔频谱确定音频。
-
-
-
-
-