-
公开(公告)号:CN117854475B
公开(公告)日:2025-04-01
申请号:CN202311844353.5
申请日:2023-12-28
Applicant: 北京邮电大学
IPC: G10L13/047 , G10L13/08 , G10L19/02 , G10L19/20 , G10L25/24
Abstract: 本发明提供一种文本生成音频方法及系统,所述方法的步骤包括扩散模型训练和音频推理;在所述扩散模型训练的步骤中,对训练音频数据进行梅尔转换得到第一梅尔频谱,将所述第一梅尔频谱构建为第一梅尔图像,将所述第一梅尔图像通过图像编码器编码为图像特征向量;获取训练音频数据对应的训练文本数据,将训练文本数据通过文本编码器编码为训练文本特征向量;将图像特征向量、训练文本特征向量及预设的训练噪声向量输入到扩散模型中,对扩散模型进行训练;在音频推理的步骤中,基于待生成文本得到待生成文本特征向量,将待生成文本特征向量和预设的高斯噪声向量输入到扩散模型中,得到目标图像特征向量,基于所述目标图像特征向量得到目标音频。
-
公开(公告)号:CN118486293B
公开(公告)日:2025-01-24
申请号:CN202410673948.7
申请日:2024-05-28
Applicant: 北京邮电大学
IPC: G10L13/027 , G10L13/10 , G10L13/02 , G10L19/00 , G10L25/03
Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。
-
公开(公告)号:CN117392972B
公开(公告)日:2024-08-27
申请号:CN202311358990.1
申请日:2023-10-19
Applicant: 北京邮电大学
Abstract: 本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
-
公开(公告)号:CN118430043A
公开(公告)日:2024-08-02
申请号:CN202410523477.1
申请日:2024-04-28
Applicant: 北京邮电大学
IPC: G06V40/16 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/80 , G06N3/048 , G06N3/0895 , G06N3/0442 , G06N3/084 , G10L25/63 , G10L25/57
Abstract: 本申请提供多模态情感识别模型训练方法、多模态情感识别方法及设备,方法包括:基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,采用难分样本挖掘方式和交叉注意力机制进行特征融合,采用融合特征对第一二分类器、第二二分类器和四分类器进行多任务联合训练,以使第一二分类器和第二二分类器用于识别融合特征是否匹配对应的情感标签,并将四分类器训练为用于识别情感识别对象所属情感类别的多模态情感识别模型。本申请能够有效提高模型整体的性能和泛化能力,并能够缓解训练过程中不同模态在对于情感识别任务贡献度不同的问题,能够辅助多模态信息融合提高情感识别的正确率和鲁棒性。
-
公开(公告)号:CN115578995A
公开(公告)日:2023-01-06
申请号:CN202211563513.4
申请日:2022-12-07
Applicant: 北京邮电大学
Abstract: 本发明提供一种面向语音对话场景的语音合成方法、系统及存储介质,包括:基于待合成语音文本数据确定文本嵌入序列,得到当前对话人嵌入向量和历史对话人信息嵌入向量;基于句子级别的文本嵌入向量、语音嵌入向量与历史对话人信息嵌入向量确定第一上下文特征和第二上下文特征;基于词级别的文本嵌入向量、历史对话人信息嵌入向量及文本嵌入序列确定文本角度的第一韵律风格特征;基于词级别的语音嵌入向量、历史对话人信息嵌入向量以及文本嵌入序列确定语音角度的第二韵律风格特征;基于第一上下文特征、第二上下文特征、第一韵律风格特征、第二韵律风格特征、文本嵌入序列及当前对话人嵌入向量得到预测的梅尔频谱,基于梅尔频谱确定音频。
-
公开(公告)号:CN115414042A
公开(公告)日:2022-12-02
申请号:CN202211096131.5
申请日:2022-09-08
Applicant: 北京邮电大学
Abstract: 本发明提供一种基于情感信息辅助的多模态焦虑检测方法及装置,该方法包括:获取文本数据集和语音信号集;将各文本数据分别输入至文本情感数据清洗模型,得到各情感类别,并清洗掉情感类别与第一情感不一致的文本数据,得到第二文本数据集;将各语音信号分别输入至语音情感数据清洗模型,得到各语音信号对应的情感类别,清洗掉情感类别与第一情感不一致的语音信号,得到第二语音信号集;将第二文本数据集输入至文本焦虑检测模型,得到文本模态特征,将第二语音信号集输入至语音焦虑检测模型,得到语音模态特征,将文本模态特征和语音模态特征进行特征融合,并基于融合后的特征得到被测者的焦虑分类结果。该方法可准确的检测被测者的焦虑状态。
-
公开(公告)号:CN118486293A
公开(公告)日:2024-08-13
申请号:CN202410673948.7
申请日:2024-05-28
Applicant: 北京邮电大学
IPC: G10L13/027 , G10L13/10 , G10L13/02 , G10L19/00 , G10L25/03
Abstract: 本申请提供基于检索增强生成的语音合成方法及装置,方法包括:基于检索增强生成方式,采用上下文感知对比语言及音频模型确定作为目标文本的语音提示的各个提示语音以及提示文本;对提示文本与目标文本进行拼接以得到拼接文本,并对各个提示语音进行拼接以得到拼接语音;将拼接文本和拼接语音输入基于提示的语音合成模型,以使该基于提示的语音合成模型输出目标文本对应的合成语音。本申请通过设计一种能够基于上下文感知将文本和音频映射到统一的共享特征空间的上下文感知对比语言及音频模型,能够提高应用该上下文感知对比语言及音频模型进行语音提示选择的有效性及可靠性,进而能够提高根据语音提示生成的合成语音的韵律表达准确性及可靠性。
-
公开(公告)号:CN116741144B
公开(公告)日:2024-07-16
申请号:CN202310607980.0
申请日:2023-05-26
Applicant: 北京邮电大学
IPC: G10L13/033 , G10L25/30
Abstract: 本发明提供一种语音音色转换方法和系统,所述方法包括:输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征,利用内容向量提取模型去除样本语音的音色,利用基频编码器提取基频特征,利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器,将样本语音的线性谱输入后验编码器,利用Flow模型对齐先验编码器和后验编码器的输出,计算概率分布距离作为损失函数,最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中,模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题,可以对任意说话人的音色建模,适用性更广。
-
公开(公告)号:CN116843806B
公开(公告)日:2024-07-12
申请号:CN202310769585.2
申请日:2023-06-27
Applicant: 北京邮电大学
IPC: G06T13/40 , G06T3/04 , G06T9/00 , G06N3/0499 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明提供一种人脸动画合成方法、系统和存储介质,所述方法包括:获取包含人脸的源图像和驱动图像;利用关键点编码器和特征提取器从源图像和驱动图像中分别获得源关键点特征和驱动关键点特征,并且利用源编码器对源图像进行编码获得源图像特征;分别对源图像特征和源关键点特征添加可学习的补充特征;然后基于缩放点积自注意力机制进行线性注意的隐式扭曲获得第一图像特征;基于残差连接获得第二图像特征;将第一图像特征和第二图像特征叠加获得合成图像特征,再通过解码器解码后输出图片,拼接逐帧输出的图片生成包含人脸的动画。本发明能够降低隐式扭曲注意力模块的复杂度、提高计算效率。
-
公开(公告)号:CN116741144A
公开(公告)日:2023-09-12
申请号:CN202310607980.0
申请日:2023-05-26
Applicant: 北京邮电大学
IPC: G10L13/033 , G10L25/30
Abstract: 本发明提供一种语音音色转换方法和系统,所述方法包括:输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征,利用内容向量提取模型去除样本语音的音色,利用基频编码器提取基频特征,利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器,将样本语音的线性谱输入后验编码器,利用Flow模型对齐先验编码器和后验编码器的输出,计算概率分布距离作为损失函数,最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中,模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题,可以对任意说话人的音色建模,适用性更广。
-
-
-
-
-
-
-
-
-