-
公开(公告)号:CN111833855A
公开(公告)日:2020-10-27
申请号:CN202010179723.8
申请日:2020-03-16
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。
-
公开(公告)号:CN111785261A
公开(公告)日:2020-10-16
申请号:CN202010418684.2
申请日:2020-05-18
Applicant: 南京邮电大学
Abstract: 本发明公开了基于解纠缠和解释性表征的跨语种语音转换方法及系统,该方法包括训练阶段和转换阶段,训练阶段包括以下步骤:获取训练语料,训练语料由两种语言的多名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的梅尔频谱特征,得到声学特征向量;将声学特征向量输入到转换网络中进行训练,训练网络包括内容编码器、说话人编码器和解码器;本发明通过学习解纠缠和解释性表征,将说话人语句中的内容信息和说话人个性信息进行解耦,然后将源说话人内容信息与目标说话人个性信息进行重构,实现高质量的跨语种语音转换,还可以转换不在训练集内的说话人的语音,解决了获取目标说话人训练语料困难的问题,扩展了该方法的应用范围。
-
公开(公告)号:CN111833855B
公开(公告)日:2024-02-23
申请号:CN202010179723.8
申请日:2020-03-16
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。
-
公开(公告)号:CN111785261B
公开(公告)日:2023-07-21
申请号:CN202010418684.2
申请日:2020-05-18
Applicant: 南京邮电大学
Abstract: 本发明公开了基于解纠缠和解释性表征的跨语种语音转换方法及系统,该方法包括训练阶段和转换阶段,训练阶段包括以下步骤:获取训练语料,训练语料由两种语言的多名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的梅尔频谱特征,得到声学特征向量;将声学特征向量输入到转换网络中进行训练,训练网络包括内容编码器、说话人编码器和解码器;本发明通过学习解纠缠和解释性表征,将说话人语句中的内容信息和说话人个性信息进行解耦,然后将源说话人内容信息与目标说话人个性信息进行重构,实现高质量的跨语种语音转换,还可以转换不在训练集内的说话人的语音,解决了获取目标说话人训练语料困难的问题,扩展了该方法的应用范围。
-
-
-