基于i向量和VARSGAN的多对多语音转换方法

    公开(公告)号:CN110060691B

    公开(公告)日:2023-02-28

    申请号:CN201910304431.X

    申请日:2019-04-16

    Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。

    基于DenseNet STARGAN的多对多说话人转换方法

    公开(公告)号:CN111833855A

    公开(公告)日:2020-10-27

    申请号:CN202010179723.8

    申请日:2020-03-16

    Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

    基于i向量和VARSGAN的多对多语音转换方法

    公开(公告)号:CN110060691A

    公开(公告)日:2019-07-26

    申请号:CN201910304431.X

    申请日:2019-04-16

    Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。

    基于DenseNet STARGAN的多对多说话人转换方法

    公开(公告)号:CN111833855B

    公开(公告)日:2024-02-23

    申请号:CN202010179723.8

    申请日:2020-03-16

    Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

Patent Agency Ranking