-
公开(公告)号:CN110060701B
公开(公告)日:2023-01-31
申请号:CN201910268596.6
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L25/30 , G10L21/007 , G10L13/02
Abstract: 本发明公开了一种基于VAWGAN‑AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
-
公开(公告)号:CN110060690A
公开(公告)日:2019-07-26
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F17/27 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN109671442A
公开(公告)日:2019-04-23
申请号:CN201910030578.4
申请日:2019-01-14
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/30 , G10L13/02
Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C-VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN110600047B
公开(公告)日:2023-06-20
申请号:CN201910874686.X
申请日:2019-09-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。
-
公开(公告)号:CN110060657B
公开(公告)日:2023-01-31
申请号:CN201910268565.0
申请日:2019-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN‑ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN‑ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN‑ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
-
公开(公告)号:CN109671442B
公开(公告)日:2023-02-28
申请号:CN201910030578.4
申请日:2019-01-14
Applicant: 南京邮电大学
IPC: G10L21/013 , G10L25/18 , G10L25/30 , G10L13/02
Abstract: 本发明公开了一种基于STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与x向量相结合来实现语音转换系统,能够较好地提升转换后语音的个性相似度和语音质量,特别是对于短时话语x向量具有更好的表征性能,语音转换质量更好,同时可以克服C‑VAE中过平滑的问题,实现了一种高质量的语音转换方法。此外,本方法能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换,在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。
-
公开(公告)号:CN110060701A
公开(公告)日:2019-07-26
申请号:CN201910268596.6
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L25/30 , G10L21/007 , G10L13/02
Abstract: 本发明公开了一种基于VAWGAN-AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
-
公开(公告)号:CN110060657A
公开(公告)日:2019-07-26
申请号:CN201910268565.0
申请日:2019-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于SN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN-ResNet与SN相结合来实现语音转换系统,利用SN(Switchable norm)解决STARGAN-ResNet中数据标准化过程中的噪声问题,通过为深度网络中的每一个标准化层确定合适的标准化操作来改善STARGAN-ResNet的数据标准化过程中产生的噪声问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,克服转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。
-
公开(公告)号:CN110060690B
公开(公告)日:2023-03-24
申请号:CN201910268602.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L17/02 , G10L17/04 , G10L17/14 , G10L17/18 , G10L17/22 , G10L25/18 , G06F40/30 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。
-
公开(公告)号:CN110600047A
公开(公告)日:2019-12-20
申请号:CN201910874686.X
申请日:2019-09-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于Perceptual STARGAN的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与感知网络相结合来实现语音转换系统,利用感知网络计算感知损失来提升模型对语音频谱的深层语义特征与个性特征的提取能力,能够较好地提升模型对语音频谱的语义以及个性特征的学习能力,从而较好地提升转换后语音的个性相似度和语音质量,克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,降低模型复杂度,实现多说话人对多说话人转换。
-
-
-
-
-
-
-
-
-