-
公开(公告)号:CN109671442A
公开(公告)日:2019-04-23
申请号:CN201910030578.4
申请日:2019-01-14
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/30 , G10L13/02
Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C-VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN108461085A
公开(公告)日:2018-08-28
申请号:CN201810207343.3
申请日:2018-03-13
Applicant: 南京邮电大学
Abstract: 本发明公开了一种短时语音条件下的说话人识别方法,包括以下步骤:(1):对不同说话人的短时语音进行预处理,提取语音特征向量并相应说话人标记;(2):用语音特征数据对深度置信网络进行有监督的训练,构建深度置信网络模型;(3):将深度置信网络模型中瓶颈层之后的网络结构去除,形成瓶颈输出网络模型;(4):将不同说话人的语音特征向量依次经过瓶颈输出网络模型,提取得到相应的瓶颈特征,然后将瓶颈特征作为矢量量化训练输入,构建矢量量化模型;(5):将待识别短时语音的语音特征向量经过瓶颈输出网络模型,提取相应瓶颈特征,再将得到的待识别短时语音的瓶颈特征输入矢量量化模型进行识别。本发明具有系统识别率高的优点。
-
公开(公告)号:CN107301859A
公开(公告)日:2017-10-27
申请号:CN201710474281.8
申请日:2017-06-21
Applicant: 南京邮电大学
IPC: G10L15/02 , G10L15/06 , G10L15/07 , G10L15/14 , G10L17/02 , G10L21/007 , G10L25/51 , G10L19/032
Abstract: 本发明公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐,然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,最后使用该转换函数实现高质量的语音转换。本发明不仅克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,适用性和通用性更强,而且使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,在转换的个性相似度和语音质量上更好。
-
公开(公告)号:CN109671423B
公开(公告)日:2023-06-02
申请号:CN201810418346.1
申请日:2018-05-03
Applicant: 南京邮电大学
Abstract: 本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。
-
公开(公告)号:CN115713933A
公开(公告)日:2023-02-24
申请号:CN202211423687.0
申请日:2022-11-15
Applicant: 南京邮电大学
Abstract: 本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段包括以下步骤:首先在内容编码器中引入SE模块,通过该模块,网络可以学习获取全局信息,提升内容编码器生成的内容表征的质量;进一步引入互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;最后在解码器中将目标说话人语句中的个性信息与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种语音转换。
-
公开(公告)号:CN114299917A
公开(公告)日:2022-04-08
申请号:CN202210004168.4
申请日:2022-01-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于基频差异补偿的StyleGAN(Style Generative Adversarial Network)情感语音转换方法,首先提出了将风格编码器提取的多种情感风格特征作为标签信息,采用自适应实例归一化将情感风格特征与内容特征相融合,使生成器不仅能够充分学习目标情感的风格特征,而且可以实现不在训练集内的情感之间的转换,即完成开集情形下的任意情感之间的转换;进一步,在传统对数高斯归一化基频转换的基础上,提出了基频差异补偿,从而增强不同情感之间的幅度差异,解决了传统对数高斯归一化基频转换后基频仅呈现整体上升,而均值和均方差无法准确描述不同情感的基频包络幅度差异的问题,有效提升转换后语音的情感饱和度,实现开集情形下高质量的情感语音转换。
-
公开(公告)号:CN109584893B
公开(公告)日:2021-09-14
申请号:CN201811597896.0
申请日:2018-12-26
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/21 , G10L25/30 , G10L13/02
Abstract: 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
-
公开(公告)号:CN109599091B
公开(公告)日:2021-01-26
申请号:CN201910030577.X
申请日:2019-01-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于STARWGAN‑GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN‑GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X‑vector向量来表征说话人的个性化特征,并且使用WGAN‑GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN107545903B
公开(公告)日:2020-11-24
申请号:CN201710589792.4
申请日:2017-07-19
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于深度学习的语音转换方法,属于语音信号处理技术领域。本发明使用声音编解码器AHOcoder作为特征提取端和语音合成端,使用一种深度学习的方法对语音特征进行训练分别得到源说话人和目标说话人的深层特征,同时得到由深层特征重构原始特征的解码能力,使用BP神经网络实现源说话人和目标说话人深层特征的映射,从而实现语音转换。本发明优点在于对语音的原始特征进行了拼接,认为拼接后的联合特征参数包含有说话人语音特性的动态特征,通过预训练深度自编码器加速了深度神经网络的训练,且通过深层特征的转换使得在使用少量语料进行训练的情况下得到了品质较好的转换后的语音,并且本发明支持离线学习,节约了终端设备的计算资源和内存。
-
公开(公告)号:CN111429893A
公开(公告)日:2020-07-17
申请号:CN202010168932.2
申请日:2020-03-12
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于Transitive STARGAN的多对多说话人转换方法,通过将STARGAN的生成器与传递网络相结合,在生成器中将编码网络提取的特征传递到解码网络的对应网络层中,提高解码网络对不同尺度语义特征的学习能力,实现模型对频谱深层特征的学习功能,提高解码网络的频谱生成质量,更加充分地学习语义特征和说话人的个性化特征,从而较好地提升转换合成语音的个性相似度和语音质量,克服STARGAN模型转换后个性相似度与自然度较差的问题,实现非平行文本条件下高质量的多对多说话人转换。
-
-
-
-
-
-
-
-
-