-
公开(公告)号:CN119673191A
公开(公告)日:2025-03-21
申请号:CN202411887138.8
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 本公开涉及基于深度学习的语音增强。公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对多个帧中的每一帧处的多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN118742954A
公开(公告)日:2024-10-01
申请号:CN202380022728.1
申请日:2023-02-15
IPC: G10L19/005 , G10L21/02 , G06N3/02
Abstract: 公开了一种使用稳健的音频特征生成增强语音数据的系统。在一些实施例中,该系统被编程为使用自监督深度学习模型从包含受污染语音并且经过编码的给定音频数据中生成一组特征向量。该系统还被进一步编程为使用生成式深度学习模型从该组特征向量中创建与干净语音相对应的改善的音频数据。
-