-
公开(公告)号:CN111771213B
公开(公告)日:2021-10-08
申请号:CN201980013180.8
申请日:2019-02-14
Applicant: 杜比实验室特许公司
IPC: G06N3/04 , G06N3/08 , G10L13/033
Abstract: 提供用于语音合成的计算机实施方法。语音合成器可经训练以产生经合成音频数据,所述经合成音频数据对应于源说话者根据目标说话者的语音特性说出的话语。可通过带时间戳的音位序列、音调曲线数据及说话者识别数据来训练所述语音合成器。所述语音合成器可包含话音建模神经网络及调节神经网络。
-
公开(公告)号:CN119673191A
公开(公告)日:2025-03-21
申请号:CN202411887138.8
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 本公开涉及基于深度学习的语音增强。公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对多个帧中的每一帧处的多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN111771213A
公开(公告)日:2020-10-13
申请号:CN201980013180.8
申请日:2019-02-14
Applicant: 杜比实验室特许公司
IPC: G06N3/04 , G06N3/08 , G10L13/033
Abstract: 提供用于语音合成的计算机实施方法。语音合成器可经训练以产生经合成音频数据,所述经合成音频数据对应于源说话者根据目标说话者的语音特性说出的话语。可通过带时间戳的音位序列、音调曲线数据及说话者识别数据来训练所述语音合成器。所述语音合成器可包含话音建模神经网络及调节神经网络。
-
公开(公告)号:CN114556472A
公开(公告)日:2022-05-27
申请号:CN202080073325.6
申请日:2020-10-20
IPC: G10L21/0272 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 一种语音分离服务器包括具有非线性激活的深度学习编码器。编码器被编程为:获取时域中的混合音频波形;从混合音频波形中学习一般化模式;以及生成有效表征混合音频波形的编码表示,以进行语音分离。
-
公开(公告)号:CN114303186A
公开(公告)日:2022-04-08
申请号:CN202080058992.7
申请日:2020-08-18
Applicant: 杜比实验室特许公司
IPC: G10L13/033 , G10L21/013 , G06K9/62
Abstract: 公开了用于使用真实语音数据为新说话者适配话音克隆合成器的新方法和系统。来自一个或多个目标说话者的话语被参数化,并用于通过如下操作来初始化供话音合成器使用的嵌入向量:对话语数据进行聚类,并使用说话者识别神经网络和/或通过找到最接近于话语数据的存储嵌入矢量来确定数据的质心。
-
公开(公告)号:CN116508099B
公开(公告)日:2025-01-10
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN118202671A
公开(公告)日:2024-06-14
申请号:CN202280074178.3
申请日:2022-10-14
Abstract: 一种音频处理方法,该方法包括基于参考音频信号、提取的音频对象、提取的床声道、经渲染的音频信号和基于声道的音频信号的部分响度来生成检测分数。该检测分数指示音频对象和床声道中的一者或多者中的音频伪像。提取的音频对象和提取的床声道可以根据检测分数进行修改,以减少音频伪像。
-
公开(公告)号:CN116508099A
公开(公告)日:2023-07-28
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
-
-
-
-
-
-