-
公开(公告)号:CN119404249A
公开(公告)日:2025-02-07
申请号:CN202380048431.2
申请日:2023-04-19
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L21/0216
Abstract: 本公开描述了确定至少一个掩模的方法,其用于训练基于深度神经网络(DNN)的基于掩模的音频处理模型。特别地,该方法可以包括获得用于训练的目标音频信号的时间‑频率表示。该方法还可以包括针对目标音频信号来确定逐通道能量归一化(PCEN)度量。该方法也可以进一步包括基于PCEN度量来确定至少一个掩模。
-
公开(公告)号:CN117643075A
公开(公告)日:2024-03-01
申请号:CN202280049982.6
申请日:2022-07-12
Applicant: 杜比实验室特许公司
IPC: H04S7/00
Abstract: 提供了一种用于对音频信号进行去混响的方法。在一些实施方式中,所述方法涉及:获得真实声脉冲响应(AIR);识别所述真实AIR的与直达声的早期反射相对应的第一部分和所述真实AIR的与所述直达声的晚期反射相对应的第二部分;通过修改所述真实AIR的第一部分和/或所述真实AIR的第二部分来生成一个或多个合成AIR;以及使用所述真实AIR和所述一个或多个合成AIR来生成多个训练样本,每个训练样本包括输入音频信号和混响音频信号,其中,所述混响音频信号是基于所述输入音频信号以及所述真实AIR或所述一个或多个合成AIR之一中的至少一者来生成的,所述多个训练样本被用于训练机器学习模型。
-
公开(公告)号:CN117597732A
公开(公告)日:2024-02-23
申请号:CN202280047307.X
申请日:2022-06-28
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 公开了一种用于减轻语音和其他非噪声信号的过度抑制的系统。在一些实施例中,系统被编程为使用非线性的不对称损失函数来训练用于语音检测或增强的第一机器学习模型,非线性的不对称损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为接收音频信号并生成指示音频信号中存在的语音量的掩码。可以调整所述掩码以纠正由于语音过度抑制而导致的急剧话音衰减。所述系统还被编程为训练用于笑声或掌声检测的第二机器学习模型。所述系统进一步被编程为通过将调整后的掩码应用到除了音频信号中已被识别为对应于笑声或掌声的部分之外的新音频信号来提高新音频信号的质量。
-
公开(公告)号:CN119998877A
公开(公告)日:2025-05-13
申请号:CN202380070590.2
申请日:2023-07-28
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 对系统进行编程以建立机器学习模型,该机器学习模型包括一系列掩码块。每个掩码块接收音频片段的某个特征向量。每个掩码块包括第一部件和第二部件,第一部件生成用于提取干净语音的第一掩码,第二部件生成用于提取被第一掩码掩盖的残余语音的第二掩码。每个掩码块还基于第一掩码和第二掩码生成特定的特征向量,该特定的特征向量会成为下一个掩码块的某个特征向量。第二部件可以包括门控循环单元层,相较于可以包括多个卷积层的第一部件,该第二部件的计算复杂度较低。此外,该系统被编程为接收输入音频片段的输入特征向量,并且执行机器学习模型以获得输出音频片段的输出特征向量。
-
公开(公告)号:CN116508099B
公开(公告)日:2025-01-10
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L25/30
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN116508099A
公开(公告)日:2023-07-28
申请号:CN202180073792.3
申请日:2021-10-29
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 公开了一种用于抑制噪声并增强语音的系统和相关方法。所述系统训练神经网络模型,所述神经网络模型获取与原始带噪声波形相对应的带能量并产生语音值,所述语音值指示每一帧处的每个频带中存在的语音量。所述神经模型包括实施某种前瞻的特征提取块。所述特征提取块之后是编码器,所述编码器沿频域进行稳定的下采样,从而形成收缩路径。所述编码器之后是对应的解码器,所述解码器沿频域进行稳定的上采样,从而形成扩大路径。所述解码器从对应级别的编码器接收经缩放的输出特征图。所述解码器之后是分类块,所述分类块生成语音值,所述语音值指示针对所述多个帧中的每一帧处的所述多个频带中的每个频带存在的语音量。
-
公开(公告)号:CN117693791A
公开(公告)日:2024-03-12
申请号:CN202280050059.4
申请日:2022-07-12
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G06N3/0464 , G10L21/0232
Abstract: 提供了一种用于增强音频信号的方法。在一些实施方式中,所述方法涉及(a)获得包括多个训练样本的训练集,每个训练样本包括失真音频信号和纯净音频信号。在一些实施方式中,所述方法涉及(b)对于所述多个训练样本中的训练样本:获得所述失真音频信号的频域表示;将所述频域表示提供给包括多个卷积层的卷积神经网络(CNN)和循环元件,其中,所述循环元件的输出被提供给所述多个卷积层的子集,生成预测增强掩码,其中,所述CNN生成所述预测增强掩码;基于所述预测增强掩码来生成预测的增强音频信号;以及基于所述预测的增强音频信号来更新与所述CNN和所述循环元件相关联的权重。
-
公开(公告)号:CN116348953A
公开(公告)日:2023-06-27
申请号:CN202180070431.3
申请日:2021-10-13
IPC: G10L25/30
Abstract: 描述了一种训练用于声源分离的基于深度学习的系统的方法。该系统包括用于从音频信号的表示中逐帧提取声源表示的分离级,以及用于为每个帧生成指示所提取的声源表示的帧到相应声源的分配置换的向量的聚类级。音频信号的表示是基于波形的表示。分离级使用帧级置换不变训练来进行训练。此外,聚类级被训练为音频信号的帧生成嵌入向量,其允许确定所提取的声音信号和已用于帧的声源的标签之间的相应分配置换的估计。还描述了一种使用基于深度学习的系统进行声源分离的方法。
-
公开(公告)号:CN114556472A
公开(公告)日:2022-05-27
申请号:CN202080073325.6
申请日:2020-10-20
IPC: G10L21/0272 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 一种语音分离服务器包括具有非线性激活的深度学习编码器。编码器被编程为:获取时域中的混合音频波形;从混合音频波形中学习一般化模式;以及生成有效表征混合音频波形的编码表示,以进行语音分离。
-
公开(公告)号:CN114303186A
公开(公告)日:2022-04-08
申请号:CN202080058992.7
申请日:2020-08-18
Applicant: 杜比实验室特许公司
IPC: G10L13/033 , G10L21/013 , G06K9/62
Abstract: 公开了用于使用真实语音数据为新说话者适配话音克隆合成器的新方法和系统。来自一个或多个目标说话者的话语被参数化,并用于通过如下操作来初始化供话音合成器使用的嵌入向量:对话语数据进行聚类,并使用说话者识别神经网络和/或通过找到最接近于话语数据的存储嵌入矢量来确定数据的质心。
-
-
-
-
-
-
-
-
-