-
公开(公告)号:CN117292694B
公开(公告)日:2024-02-27
申请号:CN202311564716.X
申请日:2023-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于时不变编码的少令牌神经语音编解码方法和系统,应用于训练好的神经语音编解码模型,该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器;基于所述编码器对待处理语音进行编码,获得编码器输出层的隐层表示及编码器中间层的中间层表示;基于所述时不变提取器对所述中间层表示进行时不变特征提取,获得时不变表示;基于所述量化器分别对所述隐层表示和时不变表示进行量化,获得帧级别语音令牌和时不变令牌;基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码,获得重构后语音;即通过时不变提取器对语音信号的时不变信息进行单独编码,在更少的语音编码令牌数量时能够实现高质量语音重建。
-
公开(公告)号:CN116364055A
公开(公告)日:2023-06-30
申请号:CN202310634393.0
申请日:2023-05-31
Applicant: 中国科学院自动化研究所
IPC: G10L13/027 , G10L13/08 , G10L25/30
Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。
-
公开(公告)号:CN116364055B
公开(公告)日:2023-09-01
申请号:CN202310634393.0
申请日:2023-05-31
Applicant: 中国科学院自动化研究所
IPC: G10L13/027 , G10L13/08 , G10L25/30
Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。
-
公开(公告)号:CN117292694A
公开(公告)日:2023-12-26
申请号:CN202311564716.X
申请日:2023-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于时不变编码的少令牌神经语音编解码方法和系统,应用于训练好的神经语音编解码模型,该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器;基于所述编码器对待处理语音进行编码,获得编码器输出层的隐层表示及编码器中间层的中间层表示;基于所述时不变提取器对所述中间层表示进行时不变特征提取,获得时不变表示;基于所述量化器分别对所述隐层表示和时不变表示进行量化,获得帧级别语音令牌和时不变令牌;基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码,获得重构后语音;即通过时不变提取器对语音信号的时不变信息进行单独编码,在更少的语音编码令牌数量时能够实现高质量语音重建。
-
-
-