一种段落语音合成建模及段落语音合成方法

    公开(公告)号:CN117475988A

    公开(公告)日:2024-01-30

    申请号:CN202311393709.8

    申请日:2023-10-25

    Abstract: 本发明涉及一种段落语音合成建模方法,所述方法包括:构建包括MSAE、MSTE和MSD的段落语音合成模型;以段落语音的线性频谱图和其对应的段落文本对为训练样本,构建训练样本集;以重建线性频谱图为任务,将KL损失的权重设置为不大于0.0001的值,训练MSAE和MSD;继续以重建线性频谱图为任务,逐渐增大KL损失的权重,训练MSAE和MSD;以重建语音波形为任务,继续逐渐增大KL损失的权重直至1,训练段落语音合成模型。还涉及了一种段落语音合成方法。本发明的方法,能够在单次推理中生成自然和富有表现力的高质量段落语音。

    一种可保留语音情感的说话人隐私保护方法及系统

    公开(公告)号:CN119207441B

    公开(公告)日:2025-04-08

    申请号:CN202411174387.2

    申请日:2024-08-26

    Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。

    一种端到端语音合成方法和装置
    4.
    发明公开

    公开(公告)号:CN115985289A

    公开(公告)日:2023-04-18

    申请号:CN202211582420.6

    申请日:2022-12-09

    Abstract: 本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。

    一种拼音拼读的发音质量评测系统

    公开(公告)号:CN106856095A

    公开(公告)日:2017-06-16

    申请号:CN201510904230.5

    申请日:2015-12-09

    CPC classification number: G10L25/93 G10L15/02 G10L17/08 G10L25/90

    Abstract: 本发明提供了一种拼音拼读的发音质量评测系统,所述系统包括:前端处理模块、强制对齐模块、发音评测模块、声调评测模块和评测输出模块;所述前端处理模块,用于对输入的拼音拼读语音进行端点检测、声学特征的提取及规整;所述强制对齐模块,用于使用强制对齐技术把所述前端处理模块处理后的语音切分为若干个音素段,获取每个音素的开始时间和截止时间;所述发音评测模块,用于利用发音良好度计算每段音素的后验概率;所述声调评测模块,用于对每段音素的声调进行识别,并判断识别结果与正确声调是否一致,给出声调质量的评估值,所述评测输出模块,用于对音评测模块和声调评测模块输出的评测结果进行综合,得到整体的评测结果,并反馈给用户。

    一种基于教师学生框架的单分类伪造语音检测方法及系统

    公开(公告)号:CN119495321A

    公开(公告)日:2025-02-21

    申请号:CN202411703134.X

    申请日:2024-11-26

    Abstract: 本申请提供了一种基于多尺度编码器图网络的伪造语音检测方法及系统,该方法包括:采集训练模型使用的语音信号;使用Wav2Vec模型提取特征;将特征送入图网络进行时频域特征关系建模,将图网络输出的时频特征拼接送入分类层进行真伪分类判决,得到教师模型;使用训练语音训练教师模型;构建学生模型;在学生模型的Transformer层中插入LoRA适配器模块;使用真实样本训练学生模型,其训练目标为教师模型的真实样本分布;采集待测试的目标语音并输入教师模型和学生模型得到隐层特征,并计算余弦相似度,与先验阈值进行比较获得目标语音伪造语音检测结果。本申请的优势在于:提升了伪造语音检测系统的性能和鲁棒性。

    一种可保留语音情感的说话人隐私保护方法及系统

    公开(公告)号:CN119207441A

    公开(公告)日:2024-12-27

    申请号:CN202411174387.2

    申请日:2024-08-26

    Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。

    一种韵律边界预测方法及系统

    公开(公告)号:CN115457932B

    公开(公告)日:2024-10-29

    申请号:CN202211077901.1

    申请日:2022-09-05

    Abstract: 本申请提供了一种韵律边界预测方法及系统,包括:使用标注文本对已有的韵律模型进行训练,得到K个低精度韵律模型;使用K个低精度韵律模型,对无标注文本进行标注,得到K组低精度弱标签;使用HMM增强模型,从K组所述低精度弱标签中,推断增强标签;使用无标注数据集与所述增强标签对基于Bert的韵律边界预测模型进行模型训练,将待预测的无标注数据输入所述基于Bert的韵律边界预测模型,得到对应的预测韵律边界标签。本申请仅利用少量标注数据和大量无标注数据,就可以完成对基于Bert的韵律边界预测模型的高质量训练,减少因数据过少的过拟合问题。

    一种跨语言端到端情感语音合成方法及系统

    公开(公告)号:CN117789771A

    公开(公告)日:2024-03-29

    申请号:CN202311545240.5

    申请日:2023-11-20

    Abstract: 本发明涉及智能数字信号处理领域,具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型,可通过给定待合成A语种文本及带有情感的B语种参考语音,合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括:采集语音‑文本成对的原始训练数据,提取语音频域特征,离散编码文本,提取语言无关情感嵌入编码,构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后,可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。

    一种基于空时残差神经网络的远场语音识别方法

    公开(公告)号:CN110895933A

    公开(公告)日:2020-03-20

    申请号:CN201811030952.2

    申请日:2018-09-05

    Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。

Patent Agency Ranking