-
公开(公告)号:CN119763543A
公开(公告)日:2025-04-04
申请号:CN202411294315.1
申请日:2024-09-14
Applicant: 中国矿业大学
IPC: G10L13/027 , G10L13/08 , G10L25/24 , G10L15/06 , G10L25/30
Abstract: 本发明公开了一种用于非平行语音转换的语音生成方法,涉及智能语音处理技术领域,本发明在CycleGAN‑VC2网络模型生成器的多层残差层之间和鉴别器的降采样第一层之后分别添加自注意力机制,使得改进后的CycleGAN‑VC2网络模型能更好地关注语音局部特征和更准确地区分加权特征的真实性,以提升语音转换的相似度,减弱非平行语料中的语音特征在时间段内的起伏变化较大的现象,同时使用目标语音MCEP特征和标准音数据集对改进后的CycleGAN‑VC2网络模型进行训练,以使训练后的CycleGAN‑VC2网络模型更偏向于目标语音的转换,而后将需转换语音的文字的标准音输入训练后的CycleGAN‑VC2网络模型并处理获得所需语音,从而使得转换后语音与目标语音相似度大大提高,实现任意说话人的语音生成。