-
公开(公告)号:CN119673191A
公开(公告)日:2025-03-21
申请号:CN202411887138.8
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 本公开涉及基于深度学习的语音增强。公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对多个帧中的每一帧处的多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN118786482A
公开(公告)日:2024-10-15
申请号:CN202380024701.6
申请日:2023-02-28
Applicant: 杜比实验室特许公司
Abstract: 一些公开的方法涉及:接收包括未标记的多声道音频数据的多声道音频数据;从未标记的多声道音频数据中提取音频特征数据;对音频特征数据的一部分应用空间掩蔽过程;对被掩蔽的音频特征数据应用上下文编码过程,以产生潜在空间中的预测空间嵌入;获得潜在空间中的参考空间嵌入;至少部分地基于预测空间嵌入与参考空间嵌入之间的差异来确定损失函数梯度;以及根据损失函数梯度更新上下文编码过程,直到获得一个或多个收敛度量。
-
公开(公告)号:CN116508099B
公开(公告)日:2025-01-10
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN116508099A
公开(公告)日:2023-07-28
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
-
-