基于激活指导和内卷积的跨语种语音转换方法

    公开(公告)号:CN113808570B

    公开(公告)日:2023-07-14

    申请号:CN202111056323.9

    申请日:2021-09-09

    Abstract: 本发明公开了基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段。本发明中提出的语音转换模型由编码器和解码器组成,首先在编解码器中采用内卷积代替传统卷积,极大地减少模型的参数量和计算量,有效地提升算法的运行效率;进一步利用编码器中的激活指导提取源说话人语句中的内容信息,同时采用U型连接将目标说话人的个性信息从编码器传递到解码器,并在解码器中与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种转换。

    基于共享训练的多尺度StarGAN的语音转换方法

    公开(公告)号:CN111462768B

    公开(公告)日:2023-04-25

    申请号:CN202010168942.6

    申请日:2020-03-12

    Abstract: 本发明公开了一种基于共享训练的多尺度StarGAN的语音转换方法,使用多尺度StarGAN结构,在不同级别上来表示多尺度特征并且增加了每层网络的感受野范围,同时使用残差连接,缓解梯度消失的问题,使得网络能够更深层次地传播,显著地提升了转换后的语音质量,进一步使用Share‑Learning训练鉴别器和分类器的共享模块Share‑Block,不仅能够减少模型参数,而且共享模块的参数可以同时训练到,能够加快鉴别器和分类器训练过程,提升鉴别器和分类器的性能,实现了一种高质量的语音转换方法,在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。

    基于i向量和VARSGAN的多对多语音转换方法

    公开(公告)号:CN110060691B

    公开(公告)日:2023-02-28

    申请号:CN201910304431.X

    申请日:2019-04-16

    Abstract: 本发明公开了一种基于i向量和VARSGAN的多对多语音转换方法,包括训练阶段和转换阶段,使用了VARSGAN(变分自编码器相对生成对抗网络)与i向量相结合的方式实现语音转换。通过构造相对判别器的方式,使得判别器的输出依赖于真实样本和生成样本间的相对值,在训练生成器时真实样本也能参与训练,从而改善了判别器中可能存在的偏置情况,使得梯度更加稳定,训练更加容易,并且把真实样本引入到生成器的训练中,从而加快了GAN的收敛速度,另外加入了能够充分表征说话人的个性特征的i向量,充分学习语义特征和说话人的个性化特征,从而更好地提升转换后语音的个性相似度和语音质量。

    基于VAWGAN-AC的多对多语音转换方法

    公开(公告)号:CN110060701B

    公开(公告)日:2023-01-31

    申请号:CN201910268596.6

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于VAWGAN‑AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换系统,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。

    基于DenseNet STARGAN的多对多说话人转换方法

    公开(公告)号:CN111833855A

    公开(公告)日:2020-10-27

    申请号:CN202010179723.8

    申请日:2020-03-16

    Abstract: 本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法,采用STARGAN与DenseNet相结合来实现语音转换系统,并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题,有助于训练过程中梯度的反向传播,提升深层网络训练效率,另一方面,使用GELU激活函数替换掉常规使用的ReLU激活函数,具有更强的非线性表示能力,有效解决了ReLU在负区间处于失活状态的缺点,进一步缓解了训练过程中网络退化的问题,增强了STARGAN模型的表征能力,很好地改善了转换后语音的个性相似度和语音质量,实现了一种高质量的多说话人到多说话人的语音转换方法,在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

    基于说话人风格特征建模的多对多语音转换方法及系统

    公开(公告)号:CN111816156A

    公开(公告)日:2020-10-23

    申请号:CN202010488776.8

    申请日:2020-06-02

    Inventor: 李燕萍 张成飞

    Abstract: 本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one-hot向量携带说话人信息有限的缺点;接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息;进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。

    基于解纠缠和解释性表征的跨语种语音转换方法及系统

    公开(公告)号:CN111785261A

    公开(公告)日:2020-10-16

    申请号:CN202010418684.2

    申请日:2020-05-18

    Inventor: 李燕萍 徐玲俐

    Abstract: 本发明公开了基于解纠缠和解释性表征的跨语种语音转换方法及系统,该方法包括训练阶段和转换阶段,训练阶段包括以下步骤:获取训练语料,训练语料由两种语言的多名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的梅尔频谱特征,得到声学特征向量;将声学特征向量输入到转换网络中进行训练,训练网络包括内容编码器、说话人编码器和解码器;本发明通过学习解纠缠和解释性表征,将说话人语句中的内容信息和说话人个性信息进行解耦,然后将源说话人内容信息与目标说话人个性信息进行重构,实现高质量的跨语种语音转换,还可以转换不在训练集内的说话人的语音,解决了获取目标说话人训练语料困难的问题,扩展了该方法的应用范围。

    基于共享训练的多尺度StarGAN的语音转换方法

    公开(公告)号:CN111462768A

    公开(公告)日:2020-07-28

    申请号:CN202010168942.6

    申请日:2020-03-12

    Abstract: 本发明公开了一种基于共享训练的多尺度StarGAN的语音转换方法,使用多尺度StarGAN结构,在不同级别上来表示多尺度特征并且增加了每层网络的感受野范围,同时使用残差连接,缓解梯度消失的问题,使得网络能够更深层次地传播,显著地提升了转换后的语音质量,进一步使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,不仅能够减少模型参数,而且共享模块的参数可以同时训练到,能够加快鉴别器和分类器训练过程,提升鉴别器和分类器的性能,实现了一种高质量的语音转换方法,在跨语种语音转换、电影配音、语音翻译和医疗辅助等领域有很好的应用前景。

    基于SE-ResNet STARGAN的多对多说话人转换方法

    公开(公告)号:CN111429894A

    公开(公告)日:2020-07-17

    申请号:CN202010168943.0

    申请日:2020-03-12

    Abstract: 本发明公开了一种基于SE-ResNet STARGAN的多对多说话人转换方法,基于STARGAN与SE-ResNet相结合来实现语音转换系统,在残差网络基础上,引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地强化有用特征同时抑制无用特征,进一步增强模型的表征能力,同时能够有效解决训练过程中存在的网络退化问题,较好地提升模型对语音频谱的语义的学习能力以及语音频谱的合成能力,从而改善转换后语音的个性相似度和合成质量,实现了一种非平行文本条件下的高质量的多对多语音转换方法。

    基于STARGAN和ResNet的多对多说话人转换方法

    公开(公告)号:CN110060690A

    公开(公告)日:2019-07-26

    申请号:CN201910268602.8

    申请日:2019-04-04

    Abstract: 本发明公开了一种基于STARGAN与ResNet的多对多说话人转换方法,包括训练阶段和转换阶段,使用了STARGAN与ResNet相结合来实现语音转换系统,利用ResNet网络解决STARGAN中存在的网络退化问题,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,从而较好地提升转换后语音的个性相似度和语音质量,同时使用Instance norm对数据进行标准化,对于转换过程中所产生的噪声能够实现很好的滤除效果,从而克服STARGAN中转换后语音相似度与自然度较差的问题,实现了一种高质量的语音转换方法。本方法能够实现非平行文本条件下的语音转换,训练过程不需要任何对齐过程,还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。

Patent Agency Ranking