-
公开(公告)号:CN118215960A
公开(公告)日:2024-06-18
申请号:CN202280074819.5
申请日:2022-11-07
Applicant: 杜比实验室特许公司
IPC: G10L21/0208
Abstract: 描述了用于改进基于掩码的语音增强中的噪声补偿的方法和装置。一种处理包括一个或多个语音片段的音频信号的方法,该方法包括获得用于对该音频信号进行基于掩码的语音增强的掩码,以及获得该音频信号的幅度。基于掩码和音频信号的幅度,在基于掩码的语音增强之后确定音频信号中的残留噪声的估计值。基于残留噪声的估计值来确定经修改的掩码。进一步描述了对应的程序和计算机可读存储介质。
-
公开(公告)号:CN116348884A
公开(公告)日:2023-06-27
申请号:CN202180071332.7
申请日:2021-10-19
Applicant: 杜比实验室特许公司
IPC: G06N3/0464 , G06N3/0455
Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。第一CNN架构可以包括U‑net的收缩路径、多尺度CNN和U‑net的扩张路径。收缩路径可以包括第一编码层,并且可以被配置为生成收缩路径的输出表示。多尺度CNN可以被配置为基于收缩路径的输出表示来生成中间表示。多尺度CNN可以包括至少两条并行卷积路径。扩张路径可以包括第一解码层,并且可以被配置为基于由多尺度CNN生成的中间表示来生成最终表示。在第二CNN架构中,第一编码层可以包括具有至少两条并行卷积路径的第一多尺度CNN,并且第一解码层可以包括具有至少两条并行卷积路径的第二多尺度CNN。
-
公开(公告)号:CN118266022A
公开(公告)日:2024-06-28
申请号:CN202280076263.3
申请日:2022-10-26
Applicant: 杜比实验室特许公司
IPC: G10L21/028 , G10L25/30 , G10L25/84 , G10L21/0208
Abstract: 本公开涉及一种用于执行源分离的方法和音频处理系统(1)。方法包括:获得(S1)包括语音内容和噪声内容的混合的音频信号(Sin);从音频信号中确定(S2a,S2b,S2c)语音内容(式A)、平稳噪声内容(式C)和非语音内容(式B)。平稳噪声内容(式C)是非语音内容(式B)的真子集,并且方法进一步包括:基于平稳噪声内容(式C)与非语音内容(式B)之间的差异来确定(S3)非平稳噪声内容(式D);获得(S5)加权因子集合;以及基于用相应的加权因子加权的语音内容(式A)、平稳噪声内容(式C)和非平稳噪声内容(式D)的组合来形成(S6)经处理的音频信号。#imgabs0##imgabs1##imgabs2##imgabs3#
-
公开(公告)号:CN118215961A
公开(公告)日:2024-06-18
申请号:CN202280074139.3
申请日:2022-11-08
Applicant: 杜比实验室特许公司
IPC: G10L21/0232 , G10L15/16
Abstract: 提供了一种用于对音频信号执行去噪的方法。在一些实施方式中,方法涉及确定调节要应用的语音保留的程度的激进性控制参数值。在一些实施方式中,方法涉及获得训练样本的训练集,训练样本具有有噪声音频信号和目标去噪掩码。在一些实施方式中,方法涉及训练机器学习模型,其中,经训练的机器学习模型可用于将有噪声测试音频信号作为输入,并生成对应的去噪测试音频信号,并且其中,激进性控制参数值被用于以下各项:1)生成包括在训练集中的有噪声音频信号的频域表示;2)修改目标去噪掩码;3)确定机器学习模型的架构;或4)确定机器学习模型的训练期间的损失。
-
公开(公告)号:CN116686047A
公开(公告)日:2023-09-01
申请号:CN202280009038.8
申请日:2022-01-04
Applicant: 杜比实验室特许公司
IPC: G10L21/0272
Abstract: 公开了一种用于确定包括对话分量和噪声分量的混合音频信号的一个或多个对话质量度量的方法,该方法包括通过对话分离器使用对话分离模型从混合音频信号中分离出估计的对话分量,该对话分离模型通过基于一个或多个质量度量训练对话分离器而被确定;将所估计的对话分量从对话分离器提供给质量度量估计器;以及通过质量度量估计器基于混合信号和估计的对话分量来确定一个或多个质量度量。还公开了一种用于训练对话分离器的方法、一种包括被配置为执行该方法的电路的系统、以及一种非暂时性计算机可读存储介质。
-
公开(公告)号:CN118369669A
公开(公告)日:2024-07-19
申请号:CN202280081203.0
申请日:2022-12-08
Applicant: 杜比实验室特许公司
IPC: G06N3/082 , G06N3/09 , G06N3/045 , G06N3/0464 , G06N3/096
Abstract: 本公开涉及一种用于设计处理器(20)的方法和一种计算机实施的神经网络。该方法包括获得输入数据和对应的基准真相目标数据并且将输入数据提供给处理器(20),以在给定输入数据的情况下输出对目标数据的第一预测。该方法进一步包括:将由处理器模块(21:1,21:2,……,21:n‑1)输出的潜在变量提供给监督器模块(22:1,22:2,22:3,……,22:n‑1),该监督器模块基于潜在变量来输出对目标数据的第二预测;以及通过将这些对目标数据的预测与基准真相目标数据进行比较来确定第一损失度量和第二损失度量。该方法进一步包括基于第一损失度量和第二损失度量来训练处理器(20)和监督器模块(22:1,22:2,22:3,……,22:n‑1),并且通过移除、替换和添加处理器模块中的至少一项操作来调整处理器。
-
-
公开(公告)号:CN114341979A
公开(公告)日:2022-04-12
申请号:CN202080035468.8
申请日:2020-05-13
Applicant: 杜比实验室特许公司
IPC: G10L21/0272 , G10L25/18 , G10L25/30 , G06N3/08 , G06N3/04
Abstract: 本文描述了一种基于卷积神经网络(CNN)的语音源分离的方法,该方法包括以下步骤:(a)提供原始带噪语音信号的时频变换的多个帧;(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中;(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征;(d)获得并行卷积路径的输出的聚合输出;和(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。本文还描述了一种用于基于CNN的语音源分离的装置以及相应的计算机程序产品,计算机程序产品包括具有指令的计算机可读存储介质,所述指令在由具有处理能力的设备执行时适于执行所述方法。
-
公开(公告)号:CN119856498A
公开(公告)日:2025-04-18
申请号:CN202380065259.1
申请日:2023-09-12
Applicant: 杜比实验室特许公司
IPC: H04N21/233 , H04N5/14 , H04N21/234 , H04N21/439 , H04N21/44
Abstract: 公开了一种用于生成用于在捕获时对象渲染的自动视听分析的系统和方法。一个示例提供了一种处理视听内容的方法。该方法包括:接收包括多个音频帧和多个视频帧的内容;将多个音频帧中的每一个音频帧分类为多个音频分类;以及将多个视频帧中的每一个视频帧分类为多个视频分类。该方法包括:基于相应音频分类来处理多个音频帧;以及基于相应视频分类来处理多个视频帧。每个音频分类用不同的音频处理操作来处理,并且每个视频分类用不同的视频处理操作来处理。该方法包括通过合并经处理的多个音频帧和经处理的多个视频帧来生成该内容的音频/视频表示。
-
公开(公告)号:CN119790458A
公开(公告)日:2025-04-08
申请号:CN202380060928.6
申请日:2023-08-18
Applicant: 杜比实验室特许公司
IPC: G10L21/028 , G10L19/008 , G06N3/045 , G06N3/08
Abstract: 公开了一种用于分离混合音频信号中的音频对象的方法,所述混合音频信号包括多个音频对象。进一步公开了一种用于训练稀疏音频对象分离模型的计算机实施的方法以及一种用于从混合音频信号中分离稀疏音频对象的方法,所述混合音频信号至少包括稀疏音频对象、非稀疏音频对象以及至少一个另外的音频对象。进一步公开了一种用于基于信噪比SNR来处理音频的计算机实施的方法以及一种用于基于场景环境分类来处理音频的计算机实施的方法。公开了一种非暂态计算机可读介质以及一种被配置为执行所述方法中的一种或多种的系统。
-
-
-
-
-
-
-
-
-