一种用于多说话者和多语言语音合成的端到端神经系统

    公开(公告)号:CN116601702A

    公开(公告)日:2023-08-15

    申请号:CN202180080711.2

    申请日:2021-09-13

    Abstract: 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。

Patent Agency Ranking