-
公开(公告)号:CN119541452A
公开(公告)日:2025-02-28
申请号:CN202411525174.X
申请日:2024-10-29
Applicant: 华院计算技术(上海)股份有限公司
IPC: G10L13/08 , G10L13/047 , G10L15/26
Abstract: 本发明提供一种语音合成模型构建方法、系统、存储介质和程序产品,其中方法包括以下步骤:获取音频、文字、拼音;设置音频编码模块对所述音频提取音频编码,设置文字tokenizer将所述文字转为文字编码,设置拼音编码模块对所述拼音提取拼音编码;设置特征融合模块,将所述音频编码和所述文字编码或所述拼音编码进行融合,得到融合后的特征;将所述融合后的特征通过大语言模型,得到最终的音频向量;采用声学解码器,对所述最终的音频向量进行解码,得到最终的音频;根据损失对语音合成模型进行反向迭代。本发明能够精准控制单字读音的语音合成模型,解决现有语音合成模型中对语音合成中读音精准控制的能力差的问题。