-
公开(公告)号:CN115359775B
公开(公告)日:2025-05-16
申请号:CN202210846358.0
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。
-
公开(公告)号:CN115359775A
公开(公告)日:2022-11-18
申请号:CN202210846358.0
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。
-