Patent search ap:("华南理工大学") AND inv:"刘丁玮" Page 1

1.

发明授权
一种端到端的音色及情感迁移的中文语音克隆方法有权

公开(公告)号：CN115359775B

公开(公告)日：2025-05-16

申请号：CN202210846358.0

申请日：2022-07-05

Applicant: 华南理工大学

Inventor： 刘丁玮 , 陈铧浚 , 毛爱华 , 刘江枫 , 郭勇彬 , 张柳坚

IPC: G10L13/02 , G10L17/04 , G10L25/27 , G10L25/63

Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法，步骤如下：采集用户录制的中文语音作为训练数据，提取出所需的语音特征；训练语音克隆合成模型，包括音色情感编码器、合成器和声码器三部分；利用训练完成的语音克隆合成模型，根据用户输入的语音或文字内容，生成语音克隆合成模型已有的指定说话人的语音；或根据用户输入的短时语音，快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆，通过多说话人模型，以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量，结合使用较多语料训练的生成模型进行语音克隆，实现了能够体现特定说话人音色和情感的语音克隆。

2.

发明公开
一种端到端的音色及情感迁移的中文语音克隆方法有权

公开(公告)号：CN115359775A

公开(公告)日：2022-11-18

申请号：CN202210846358.0

申请日：2022-07-05

Applicant: 华南理工大学

Inventor： 刘丁玮 , 陈铧浚 , 毛爱华 , 刘江枫 , 郭勇彬 , 张柳坚

IPC: G10L13/02 , G10L17/04 , G10L25/27 , G10L25/63

Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法，步骤如下：采集用户录制的中文语音作为训练数据，提取出所需的语音特征；训练语音克隆合成模型，包括音色情感编码器、合成器和声码器三部分；利用训练完成的语音克隆合成模型，根据用户输入的语音或文字内容，生成语音克隆合成模型已有的指定说话人的语音；或根据用户输入的短时语音，快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆，通过多说话人模型，以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量，结合使用较多语料训练的生成模型进行语音克隆，实现了能够体现特定说话人音色和情感的语音克隆。

Patent Agency Ranking