-
公开(公告)号:CN117854475B
公开(公告)日:2025-04-01
申请号:CN202311844353.5
申请日:2023-12-28
Applicant: 北京邮电大学
IPC: G10L13/047 , G10L13/08 , G10L19/02 , G10L19/20 , G10L25/24
Abstract: 本发明提供一种文本生成音频方法及系统,所述方法的步骤包括扩散模型训练和音频推理;在所述扩散模型训练的步骤中,对训练音频数据进行梅尔转换得到第一梅尔频谱,将所述第一梅尔频谱构建为第一梅尔图像,将所述第一梅尔图像通过图像编码器编码为图像特征向量;获取训练音频数据对应的训练文本数据,将训练文本数据通过文本编码器编码为训练文本特征向量;将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对扩散模型进行训练;在音频推理的步骤中,基于待生成文本得到待生成文本特征向量,将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中,得到目标图像特征向量,基于所述目标图像特征向量得到目标音频。
-
公开(公告)号:CN118486293B
公开(公告)日:2025-01-24
申请号:CN202410673948.7
申请日:2024-05-28
Applicant: 北京邮电大学
IPC: G10L13/027 , G10L13/10 , G10L13/02 , G10L19/00 , G10L25/03
Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。
-
公开(公告)号:CN117392972B
公开(公告)日:2024-08-27
申请号:CN202311358990.1
申请日:2023-10-19
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN118430043A
公开(公告)日:2024-08-02
申请号:CN202410523477.1
申请日:2024-04-28
Applicant: 北京邮电大学
IPC: G06V40/16 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/80 , G06N3/048 , G06N3/0895 , G06N3/0442 , G06N3/084 , G10L25/63 , G10L25/57
Abstract: 本申请提供多模态情感识别模型训练方法、多模态情感识别方法及设备,方法包括:基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,采用难分样本挖掘方式和交叉注意力机制进行特征融合,采用融合特征对第一二分类器、第二二分类器和四分类器进行多任务联合训练,以使第一二分类器和第二二分类器用于识别融合特征是否匹配对应的情感标签,并将四分类器训练为用于识别情感识别对象所属情感类别的多模态情感识别模型。本申请能够有效提高模型整体的性能和泛化能力,并能够缓解训练过程中不同模态在对于情感识别任务贡献度不同的问题,能够辅助多模态信息融合提高情感识别的正确率和鲁棒性。
-
公开(公告)号:CN115578995A
公开(公告)日:2023-01-06
申请号:CN202211563513.4
申请日:2022-12-07
Applicant: 北京邮电大学
Abstract: 本发明提供一种面向语音对话场景的语音合成方法、系统及存储介质,包括:基于待合成语音文本数据确定文本嵌入序列,得到当前对话人嵌入向量和历史对话人信息嵌入向量;基于句子级别的文本嵌入向量、语音嵌入向量与历史对话人信息嵌入向量确定第一上下文特征和第二上下文特征;基于词级别的文本嵌入向量、历史对话人信息嵌入向量及文本嵌入序列确定文本角度的第一韵律风格特征;基于词级别的语音嵌入向量、历史对话人信息嵌入向量以及文本嵌入序列确定语音角度的第二韵律风格特征;基于第一上下文特征、第二上下文特征、第一韵律风格特征、第二韵律风格特征、文本嵌入序列及当前对话人嵌入向量得到预测的梅尔频谱,基于梅尔频谱确定音频。
-
公开(公告)号:CN115414042A
公开(公告)日:2022-12-02
申请号:CN202211096131.5
申请日:2022-09-08
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于情感信息辅助的多模态焦虑检测方法及装置,该方法包括:获取文本数据集和语音信号集;将各文本数据分别输入至文本情感数据清洗模型,得到各情感类别,并清洗掉情感类别与第一情感不一致的文本数据,得到第二文本数据集;将各语音信号分别输入至语音情感数据清洗模型,得到各语音信号对应的情感类别,清洗掉情感类别与第一情感不一致的语音信号,得到第二语音信号集;将第二文本数据集输入至文本焦虑检测模型,得到文本模态特征,将第二语音信号集输入至语音焦虑检测模型,得到语音模态特征,将文本模态特征和语音模态特征进行特征融合,并基于融合后的特征得到被测者的焦虑分类结果。该方法可准确的检测被测者的焦虑状态。
-
公开(公告)号:CN117649861B
公开(公告)日:2024-08-20
申请号:CN202311430903.9
申请日:2023-10-31
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于帧级别情感状态对齐的语音情感识别方法和系统,所述方法包括:利用预训练的语音情感识别模型对输入的语音数据进行语音情感识别,得到句子级别语音情感识别结果。其中,在所述语音情感识别模型的预训练过程中,对于训练集包含的语音数据提取帧级别深层情感表征,利用预训练的聚类模型基于帧级别深层情感表征推理得到帧级别情感伪标签,使用包含语音数据和其帧级别情感伪标签的训练集训练得到帧级别情感状态对齐模型,通过对所述帧级别情感状态对齐模型结合情感标签进行迁移学习训练得到所述语音情感识别模型。本发明能够解决语音样本中不一致帧的干扰,并避免成本昂贵的问题。
-
公开(公告)号:CN115116475B
公开(公告)日:2024-02-02
申请号:CN202210663429.3
申请日:2022-06-13
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于时延神经网络的语音抑郁症自动检测方法和装置,所述方法的步骤包括,获取初始语音信号,将所述初始语音信号划分为多个语音段,每个语音段包括至少一个语音帧,分别计算所述初始语音信号中每一个语音段的短时能量与短时过零率;基于短时能量和短时过零率得到有效语音片段;对每个有效语音片段进行预加重处理,对预加重处理后的有效语音片段基于时间进行分帧,得到多个帧片段,计算每个帧片段对应的梅尔频率倒谱系数;将梅尔频率倒谱系数输入预设的时延神经网络模型中,采用层次残差卷积以及压缩激励机制提取帧级特征,基于注意力机制的统计池化合并帧级特征并经过分类模型得到概率参数;最后投票集成得到预测结果。
-
公开(公告)号:CN117238275A
公开(公告)日:2023-12-15
申请号:CN202311071256.7
申请日:2023-08-24
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN116524896A
公开(公告)日:2023-08-01
申请号:CN202310448831.4
申请日:2023-04-24
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于发音生理建模的发音反演方法及系统,在设定的语言体系下,结合强化算法与语音合成模型从自然语音中建立所设定语言体系的标准音素音姿对照合集。利用该合集将自然语音转换成相应的音姿合集,将音姿合集输入语音合成模型生成合成语音与发音器官运动轨迹,对输入的音姿合集与生成的合成语音作增广操作,并将自然语音纳入语音集中,以构建用于训练发音反演模型的语音和发音生理样本集。从样本集的语音信号中提取特征输入到基于深度神经网络的发音反演模型中,预测出发音器官运动轨迹,训练得到发音反演模型。本发明可以降低采集和处理发音生理数据的成本,同时覆盖了更多的发音样本,训练得到的发音反演模型更鲁棒。
-
-
-
-
-
-
-
-
-