-
公开(公告)号:CN110600046A
公开(公告)日:2019-12-20
申请号:CN201910874820.6
申请日:2019-09-17
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L25/30 , G10L13/033
Abstract: 本发明公开了一种基于改进的STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了改进的STARGAN与x向量相结合来实现语音转换系统,该方法是对STARGAN在语音转换应用中的进一步改进,其中,提出的两步式对抗性损失能够有效解决由于循环一致性损失利用L1造成的过平滑问题,而且生成器采用2-1-2D CNN网络,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,克服STARGAN中转换后语音相似度与自然度较差的问题。同时x向量对于短时话语具有更好的表征性能,能够充分表征说话人的个性特征,实现了一种非平行文本条件下的高质量多对多语音转换方法。
-
公开(公告)号:CN110085254A
公开(公告)日:2019-08-02
申请号:CN201910323677.1
申请日:2019-04-22
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L21/003 , G10L21/007 , G10L25/30
Abstract: 本发明公开了一种基于beta-VAE和i-vector的多对多语音转换方法,通过引入可调节参数β和C对变分自动编码器(VAE)框架进行了修改,并将i-vector(身份特征向量)与改进后的VAE网络结合起来,提高隐变量解纠缠能力,改善其在瓶颈层编码能力的不足,并充分丰富了说话人的个性化特征,能够较好地提升转换后语音的个性相似度和语音质量,有效的提高现有VAE网络的语音转换性能。
-
公开(公告)号:CN110047501A
公开(公告)日:2019-07-23
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta-VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
公开(公告)号:CN110060690B
公开(公告)日:2023-03-24
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F40/30 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109377978B
公开(公告)日:2021-01-26
申请号:CN201811337338.0
申请日:2018-11-12
Applicant: 南京邮电大学
IPC: G10L13/08 , G10L19/02 , G10L21/007 , G10L13/02 , G10L25/30
Abstract: 本发明公开了一种非平行文本条件下基于i向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了VAWGAN与i向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。此外,本方法解除对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,本方法还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN110600047A
公开(公告)日:2019-12-20
申请号:CN201910874686.X
申请日:2019-09-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。
-
公开(公告)号:CN110060691A
公开(公告)日:2019-07-26
申请号:CN201910304431.X
申请日:2019-04-16
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。
-
公开(公告)号:CN109599091A
公开(公告)日:2019-04-09
申请号:CN201910030577.X
申请日:2019-01-14
Applicant: 南京邮电大学
CPC classification number: G10L13/02 , G06N3/0454 , G06N3/08 , G10L15/063 , G10L15/16 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于STARWGAN-GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN-GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X-vector向量来表征说话人的个性化特征,并且使用WGAN-GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109584893A
公开(公告)日:2019-04-05
申请号:CN201811597896.0
申请日:2018-12-26
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/21 , G10L25/30 , G10L13/02
Abstract: 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i-vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i-vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i-vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
-
-
-
-
-
-
-
-