-
公开(公告)号:CN110060690B
公开(公告)日:2023-03-24
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F40/30 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109599091A
公开(公告)日:2019-04-09
申请号:CN201910030577.X
申请日:2019-01-14
Applicant: 南京邮电大学
CPC classification number: G10L13/02 , G06N3/0454 , G06N3/08 , G10L15/063 , G10L15/16 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于STARWGAN-GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN-GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X-vector向量来表征说话人的个性化特征,并且使用WGAN-GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN111429894A
公开(公告)日:2020-07-17
申请号:CN202010168943.0
申请日:2020-03-12
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SE-ResNet STARGAN的多对多说话人转换方法,基于STARGAN与SE-ResNet相结合来实现语音转换系统,在残差网络基础上,引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地强化有用特征同时抑制无用特征,进一步增强模型的表征能力,同时能够有效解决训练过程中存在的网络退化问题,较好地提升模型对语音频谱的语义的学习能力以及语音频谱的合成能力,从而改善转换后语音的个性相似度和合成质量,实现了一种非平行文本条件下的高质量的多对多语音转换方法。
-
公开(公告)号:CN110060690A
公开(公告)日:2019-07-26
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F17/27 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109671442A
公开(公告)日:2019-04-23
申请号:CN201910030578.4
申请日:2019-01-14
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/30 , G10L13/02
Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C-VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN109671442B
公开(公告)日:2023-02-28
申请号:CN201910030578.4
申请日:2019-01-14
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/30 , G10L13/02
Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C‑VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN110060657A
公开(公告)日:2019-07-26
申请号:CN201910268565.0
申请日:2019-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN-ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN-ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN-ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
-
公开(公告)号:CN110060657B
公开(公告)日:2023-01-31
申请号:CN201910268565.0
申请日:2019-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN‑ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN‑ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN‑ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
-
公开(公告)号:CN109599091B
公开(公告)日:2021-01-26
申请号:CN201910030577.X
申请日:2019-01-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于STARWGAN‑GP和x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARWGAN‑GP与x向量相结合来实现语音转换系统。本方法加入了表征性能和实用性能更好的X‑vector向量来表征说话人的个性化特征,并且使用WGAN‑GP来替换GAN,从而解决GAN训练不稳定、梯度消失等问题,构建训练更加稳定、收敛速度更快的网络,进一步提升转换后语音的个性相似度和语音质量,实现了一种高质量的语音转换方法。本方法不仅能够解除对平行文本的依赖,实现非平行文本条件下的语音转换,还可以进一步将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN110600046A
公开(公告)日:2019-12-20
申请号:CN201910874820.6
申请日:2019-09-17
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L25/30 , G10L13/033
Abstract: 本发明公开了一种基于改进的STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了改进的STARGAN与x向量相结合来实现语音转换系统,该方法是对STARGAN在语音转换应用中的进一步改进,其中,提出的两步式对抗性损失能够有效解决由于循环一致性损失利用L1造成的过平滑问题,而且生成器采用2-1-2D CNN网络,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,克服STARGAN中转换后语音相似度与自然度较差的问题。同时x向量对于短时话语具有更好的表征性能,能够充分表征说话人的个性特征,实现了一种非平行文本条件下的高质量多对多语音转换方法。
-
-
-
-
-
-
-
-
-