-
公开(公告)号:CN111816156B
公开(公告)日:2023-07-21
申请号:CN202010488776.8
申请日:2020-06-02
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one‑hot向量携带说话人信息有限的缺点;接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息;进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。
-
公开(公告)号:CN111816156A
公开(公告)日:2020-10-23
申请号:CN202010488776.8
申请日:2020-06-02
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one-hot向量携带说话人信息有限的缺点;接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息;进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。
-
公开(公告)号:CN110047501B
公开(公告)日:2021-09-07
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta‑VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
公开(公告)号:CN110085254A
公开(公告)日:2019-08-02
申请号:CN201910323677.1
申请日:2019-04-22
Applicant: 南京邮电大学
IPC: G10L25/18 , G10L17/04 , G10L21/003 , G10L21/007 , G10L25/30
Abstract: 本发明公开了一种基于beta-VAE和i-vector的多对多语音转换方法,通过引入可调节参数β和C对变分自动编码器(VAE)框架进行了修改,并将i-vector(身份特征向量)与改进后的VAE网络结合起来,提高隐变量解纠缠能力,改善其在瓶颈层编码能力的不足,并充分丰富了说话人的个性化特征,能够较好地提升转换后语音的个性相似度和语音质量,有效的提高现有VAE网络的语音转换性能。
-
公开(公告)号:CN110047501A
公开(公告)日:2019-07-23
申请号:CN201910268592.8
申请日:2019-04-04
Applicant: 南京邮电大学
IPC: G10L21/007 , G10L21/013
Abstract: 本发明公开了一种基于beta-VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。
-
-
-
-