-
公开(公告)号:CN119673191A
公开(公告)日:2025-03-21
申请号:CN202411887138.8
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 本公开涉及基于深度学习的语音增强。公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对多个帧中的每一帧处的多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN114556470A
公开(公告)日:2022-05-27
申请号:CN202080072793.1
申请日:2020-10-16
IPC: G10L19/00 , G10L19/002
Abstract: 本文描述了一种波形解码方法,该方法包括以下步骤:(a)由波形解码器接收包括源信号的有限比特率表示的比特流;(b)对源信号的有限比特率表示进行波形解码以获得源信号的波形近似;(c)将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布;以及(d)基于概率分布来生成源信号的重建信号。进一步描述了一种用于波形编码的方法和系统以及一种训练生成模型的方法。
-
公开(公告)号:CN119404249A
公开(公告)日:2025-02-07
申请号:CN202380048431.2
申请日:2023-04-19
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L21/0216
Abstract: 本公开描述了确定至少一个掩模的方法,其用于训练基于深度神经网络(DNN)的基于掩模的音频处理模型。特别地,该方法可以包括获得用于训练的目标音频信号的时间‑频率表示。该方法还可以包括针对目标音频信号来确定逐通道能量归一化(PCEN)度量。该方法也可以进一步包括基于PCEN度量来确定至少一个掩模。
-
公开(公告)号:CN116457797A
公开(公告)日:2023-07-18
申请号:CN202180076578.3
申请日:2021-10-14
Applicant: 杜比实验室特许公司
Abstract: 本文描述了一种使用神经网络或者使用第一神经网络和第二神经网络处理音频信号的方法。进一步描述了一种训练所述神经网络或联合训练一组所述第一神经网络和所述第二神经网络的方法。此外,描述了一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法、以及一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法。还描述了相应的装置和计算机程序产品。
-
公开(公告)号:CN116508099B
公开(公告)日:2025-01-10
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN116508099A
公开(公告)日:2023-07-28
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
-
-
-
-