-
公开(公告)号:CN116778902A
公开(公告)日:2023-09-19
申请号:CN202310970560.9
申请日:2023-08-02
Applicant: 南京邮电大学
IPC: G10L13/047 , G10L13/02 , G10L19/00 , G10L19/02 , G10L25/18 , G10L25/30 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/048
Abstract: 本发明公开一种融合增强编码模块和LGNet网络的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解纠缠,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;LGNet网络对提取的内容表征进一步优化;解码器将获取的说话人信息表征和优化后的内容表征进行重构;本发明在编码器中引入增强编码模块,提升了转换语音的质量;利用LGNet网络使得优化后的源语句的内容表征和目标语句的说话人信息表征在解码器中的自适应实例归一化层中充分融合,进一步提高转换语音的自然度和说话人相似度从而实现高质量的跨语种语音转换。
-
公开(公告)号:CN118645083A
公开(公告)日:2024-09-13
申请号:CN202410920630.4
申请日:2024-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多尺度信息的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解耦,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;多尺度信息提取网络进一步提取内容表征中的多尺度信息;解码器将获取的说话人信息表征和包含多尺度信息的内容表征进行重构。本发明在训练阶段引入深度监督机制,在不同解码阶段引入监督信号,学习多尺度的重构特征表示,为最终输出重构特征提供多尺度信息;利用多尺度信息提取网络和深度监督机制,使转换语音包含更详细的多尺度信息,进一步提高转换语音的自然度,从而实现高质量的跨语种语音转换。
-