Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"周佳依" Page 1

1.

发明公开
语音合成的模型训练方法、语音合成方法及装置审中-实审

公开(公告)号：CN118430509A

公开(公告)日：2024-08-02

申请号：CN202410694152.X

申请日：2024-05-30

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 周佳依 , 王志铭

IPC: G10L13/02 , G10L13/08 , G10L25/18 , G10L19/16

Abstract: 本说明书实施例公开了一种语音合成的模型训练方法、语音合成方法及装置，首先获取第一文本序列及对应的真实语音数据，并将真实语音数据转化为真实梅尔频谱。然后利用第一文本序列和真实梅尔频谱对预设的声学模型进行训练，训练完成后，将第一文本序列输入训练好的声学模型中，得到第一预测梅尔频谱。进一步利用真实语音数据、真实梅尔频谱以及第一预测梅尔频谱对预设的声码器模型进行训练，直至声码器模型收敛；最后利用训练好的声学模型及声码器模型将待合成语音的第二文本序列转换为语音。

2.

发明公开
语音克隆模型训练及语音克隆方法、装置、设备、介质审中-实审

公开(公告)号：CN118506761A

公开(公告)日：2024-08-16

申请号：CN202410535643.X

申请日：2024-04-29

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 周佳依 , 王志铭

IPC: G10L13/02 , G10L13/08 , G10L25/30

Abstract: 本说明书提供了一种语音克隆模型训练及语音克隆方法、装置、设备、介质，涉及人工智能技术领域。该语音克隆模型训练方法包括：获取输入文本序列、参考语音数据和真实语音数据，将参考语音数据和真实语音数据输入到语音克隆模型的音色模拟网络中，提取说话对象音色嵌入特征，将说话对象音色嵌入特征融合到语音合成网络中，以及通过输入文本序列、参考语音数据和真实语音数据对语音合成网络进行模型训练，直到语音合成网络和音色模拟网络收敛，得到训练好的语音克隆模型。本技术方案能够实现端到端的语音合成，不需要大量语音数据即可实现未知说话人的音色克隆，降低语音克隆模型的训练成本，提升语音克隆模型生成的语音的质量。

3.

发明公开
音素序列生成方法、语音合成方法及相关产品审中-实审

公开(公告)号：CN117219054A

公开(公告)日：2023-12-12

申请号：CN202311411597.4

申请日：2023-10-27

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 周佳依 , 王涛 , 闾忠才 , 王志铭

IPC: G10L13/10 , G10L25/30

Abstract: 本申请实施例提供一种音素序列生成方法、语音合成方法及相关产品，涉及语音合成领域，音素序列生成方法包括：将待进行语音合成的目标文本输入到韵律预测模型中，得到所述目标文本的第一韵律标签；根据韵律固定词表，确定所述目标文本中的韵律固定搭配词语；根据所述目标文本中的韵律固定搭配词语，对所述目标文本的第一韵律标签进行矫正，得到所述目标文本的第二韵律标签；其中，所述第二韵律标签标识的韵律边界在对所述目标文本划分韵律单元时，使所述韵律固定搭配词语被划分为一个韵律单元；根据所述目标文本的第二韵律标签以及所述目标文本中各汉字的注音，生成所述目标文本的音素序列，该方法能够提高音素序列的生成准确度和错误修复效率。

Patent Agency Ranking