-
-
公开(公告)号:CN119256356A
公开(公告)日:2025-01-03
申请号:CN202380041476.7
申请日:2023-04-03
Applicant: 杜比实验室特许公司
IPC: G10L21/02
Abstract: 描述了处理与用户生成内容相关的音频数据的方法。一种方法包括:获得所述音频数据;对所述音频数据应用逐帧音频增强;基于所述逐帧音频增强的一个或多个处理参数来生成所述增强的音频数据的元数据;以及将所述增强的音频数据与所述元数据一起输出。另一种方法包括:获得所述音频数据以及所述音频数据的元数据,其中,所述元数据包括第一元数据,所述第一元数据指示所述音频数据的先前的逐帧音频增强的一个或多个处理参数;使用所述一个或多个处理参数对所述音频数据应用恢复处理,以至少部分地逆转先前的逐帧音频增强;以及对所恢复的原始音频数据应用逐帧音频增强或编辑处理。进一步描述了对应的装置、程序和计算机可读存储介质。
-
公开(公告)号:CN118922884A
公开(公告)日:2024-11-08
申请号:CN202380026675.0
申请日:2023-03-08
Applicant: 杜比实验室特许公司
IPC: G10L21/0208 , G10L21/0232 , G10L21/0216
Abstract: 本公开涉及一种用于抑制风噪声的方法和系统(1)。该方法包括获取包括多个连续音频信号分段(101、102、103、101'、102'、103')的输入音频信号(100、101'),并且用风噪声抑制器模块(20)抑制输入音频信号中的风噪声以产生风噪声降低的音频信号。该方法还包括使用经训练以预测增益集的神经网络(10),用于降低输入音频信号(100、100')的输入音频信号(100、100')给定样本中的噪声,其中通过将所述增益集施加给输入音频信号(100、101')来形成降噪音频信号,并用混频器(30)混合风噪声降低的音频信号和降噪音频信号,以获取具有经抑制风噪声的输出音频信号。
-
公开(公告)号:CN114080822B
公开(公告)日:2023-11-03
申请号:CN202080044706.1
申请日:2020-06-17
Applicant: 杜比实验室特许公司
Abstract: 一种音频渲染器,其用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置,其包括:第一矩阵应用模块,其用于将主渲染矩阵应用到输入音频信号,以提供适合于在所述多个独立扬声器上播放的第一预渲染信号;第二矩阵应用模块,其用于将副渲染矩阵应用到所述输入音频信号,以提供适合于在所述多个独立扬声器上播放的第二预渲染信号;声道分析模块,其经配置以根据时变声道分布计算混合增益;及混合模块,其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。
-
公开(公告)号:CN116348884A
公开(公告)日:2023-06-27
申请号:CN202180071332.7
申请日:2021-10-19
Applicant: 杜比实验室特许公司
IPC: G06N3/0464 , G06N3/0455
Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。第一CNN架构可以包括U‑net的收缩路径、多尺度CNN和U‑net的扩张路径。收缩路径可以包括第一编码层,并且可以被配置为生成收缩路径的输出表示。多尺度CNN可以被配置为基于收缩路径的输出表示来生成中间表示。多尺度CNN可以包括至少两条并行卷积路径。扩张路径可以包括第一解码层,并且可以被配置为基于由多尺度CNN生成的中间表示来生成最终表示。在第二CNN架构中,第一编码层可以包括具有至少两条并行卷积路径的第一多尺度CNN,并且第一解码层可以包括具有至少两条并行卷积路径的第二多尺度CNN。
-
公开(公告)号:CN103325386B
公开(公告)日:2016-12-21
申请号:CN201210080977.X
申请日:2012-03-23
Applicant: 杜比实验室特许公司
IPC: G10L25/78
CPC classification number: G10L25/84 , G10L25/78 , G10L2025/783
Abstract: 描述了用于信号传输控制的方法和系统。接收或访问具有块或帧的时间序列的音频信号。特征被确定为合起来表征相对于当前时间最近已经处理的顺序音频块/帧。特征确定超过特异度标准,并且相对于最近处理的音频块/帧被延迟。在音频信号中检测语音活动指示。VAD基于一个判决并且涉及当前块/帧特征,该判决超过预设灵敏度阈值,并且在相对于块/帧时长的短时间段上计算而得。VAD和最近特征确定与状态相关信息进行组合,所述信息基于从多个特征中收集、在最近特征确定时间段之前的时间确定的先前特征确定的历史。基于所述组合输出有关开始或终止所述音频信号的判决,或相关的增益。
-
公开(公告)号:CN105340299A
公开(公告)日:2016-02-17
申请号:CN201480034420.X
申请日:2014-06-17
Applicant: 杜比实验室特许公司
CPC classification number: H04S7/301 , H04R29/002 , H04R29/005 , H04R2430/20 , H04S3/02 , H04S7/308 , H04S2400/03 , H04S2400/15 , H04S2420/01 , H04S2420/11
Abstract: 本申请涉及生成环绕立体声声场。具体地,提出一种用于生成环绕立体声声场的方法、装置和计算机程序产品。该方法包括:接收由多个音频捕获设备捕获的音频信号;估计多个音频捕获设备的拓扑;并且至少部分地基于估计的拓扑从接收的音频信号生成环绕立体声声场。
-
公开(公告)号:CN104768121A
公开(公告)日:2015-07-08
申请号:CN201410178258.0
申请日:2014-04-29
Applicant: 杜比实验室特许公司
IPC: H04S5/00
CPC classification number: H04S7/306 , G10L19/008 , H04S3/004 , H04S7/307 , H04S2400/03 , H04S2400/13 , H04S2420/01
Abstract: 本公开涉及响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频。在一些实施例中,提供用于响应多通道音频信号的通道产生双耳信号的虚拟化方法,这些虚拟化方法向各通道应用双耳房间脉冲响应(BRIR),包含通过使用至少一个反馈延迟网络(FDN)以向该组的通道的下混应用公共晚期混响。在一些实施例中,输入信号通道在第一处理路径中被处理,以向各通道应用的用于该通道的单通道BRIR的直接响应和早期反射部分,并且,通道的下混在包含至少一个应用公共晚期混响的FDN的第二处理路径中被处理。典型地,公共晚期混响模仿单通道BRIR中的至少一些的晚期混响部分的共同宏观属性。其它方面是被配置为执行方法的任何实施例的耳机虚拟化器。
-
公开(公告)号:CN102809742B
公开(公告)日:2015-03-18
申请号:CN201110157737.0
申请日:2011-06-01
Applicant: 杜比实验室特许公司
IPC: G01S5/18
CPC classification number: G01S3/8034
Abstract: 描述了声源定位设备和方法。基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。评价帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度。每个参考帧幅度差向量反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。至少基于候选位置和相关的相似度估计声源的期望位置。能够至少基于幅度差来进行声源定位。
-
公开(公告)号:CN103888381A
公开(公告)日:2014-06-25
申请号:CN201210560747.3
申请日:2012-12-20
Applicant: 杜比实验室特许公司
IPC: H04L12/885
CPC classification number: H04L47/56 , H04L47/2416 , H04L47/283 , H04L65/80
Abstract: 描述了一种用于控制抖动缓冲器的装置和方法。在一种实施方式中,用于控制抖动缓冲器的装置包括:用于估计当前语音段中的第一帧的延迟相对于在前语音段中的最后一个锚帧的延迟的偏移值的语音段间延迟抖动估计器;以及用于基于抖动缓冲器的针对每个帧的长期长度和所述偏移值来调节抖动缓冲器的长度的抖动缓冲器控制器。
-
-
-
-
-
-
-
-
-