-
公开(公告)号:CN114203147A
公开(公告)日:2022-03-18
申请号:CN202010885556.9
申请日:2020-08-28
Applicant: 微软技术许可有限责任公司
Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据:将源说话者数据的波形转换成语音后验图(PPG)数据,从源说话者数据中提取附加韵律特征,以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。
-
公开(公告)号:CN116235244A
公开(公告)日:2023-06-06
申请号:CN202180061101.8
申请日:2021-04-26
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08
Abstract: 一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法;确定所接收的文本数据从该高速缓存中丢失;向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。
-
公开(公告)号:CN117256029A
公开(公告)日:2023-12-19
申请号:CN202280031186.X
申请日:2022-01-18
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 提供了用于生成轻量级、高质量的流式文本到语音(TTS)系统的系统和方法。例如,一些公开的系统被配置成获得包括卷积神经网络的一个或多个层的第一模型。该卷积神经网络的每一层被配置成从先前的输入生成新的输出。该系统还获得包括递归神经网络的第二模型。在获得该第一模型和该第二模型之后,系统被配置成以并行架构编译该卷积神经网络的该一个或多个层和该递归神经网络以生成机器学习模块,使得该机器学习模块的每个模型被配置成同时接收输入。
-
-