基于Transitive STARGAN的多对多说话人转换方法

    公开(公告)号:CN111429893A

    公开(公告)日:2020-07-17

    申请号:CN202010168932.2

    申请日:2020-03-12

    Inventor: 李燕萍 何铮韬

    Abstract: 本发明公开了一种基于Transitive STARGAN的多对多说话人转换方法,通过将STARGAN的生成器与传递网络相结合,在生成器中将编码网络提取的特征传递到解码网络的对应网络层中,提高解码网络对不同尺度语义特征的学习能力,实现模型对频谱深层特征的学习功能,提高解码网络的频谱生成质量,更加充分地学习语义特征和说话人的个性化特征,从而较好地提升转换合成语音的个性相似度和语音质量,克服STARGAN模型转换后个性相似度与自然度较差的问题,实现非平行文本条件下高质量的多对多说话人转换。

    基于SE-ResNet STARGAN的多对多说话人转换方法

    公开(公告)号:CN111429894A

    公开(公告)日:2020-07-17

    申请号:CN202010168943.0

    申请日:2020-03-12

    Abstract: 本发明公开了一种基于SE-ResNet STARGAN的多对多说话人转换方法,基于STARGAN与SE-ResNet相结合来实现语音转换系统,在残差网络基础上,引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地强化有用特征同时抑制无用特征,进一步增强模型的表征能力,同时能够有效解决训练过程中存在的网络退化问题,较好地提升模型对语音频谱的语义的学习能力以及语音频谱的合成能力,从而改善转换后语音的个性相似度和合成质量,实现了一种非平行文本条件下的高质量的多对多语音转换方法。

Patent Agency Ranking