用于用户生成内容捕获和自适应渲染的方法、装置和系统

    公开(公告)号:CN119256356A

    公开(公告)日:2025-01-03

    申请号:CN202380041476.7

    申请日:2023-04-03

    Abstract: 描述了处理与用户生成内容相关的音频数据的方法。一种方法包括:获得所述音频数据;对所述音频数据应用逐帧音频增强;基于所述逐帧音频增强的一个或多个处理参数来生成所述增强的音频数据的元数据;以及将所述增强的音频数据与所述元数据一起输出。另一种方法包括:获得所述音频数据以及所述音频数据的元数据,其中,所述元数据包括第一元数据,所述第一元数据指示所述音频数据的先前的逐帧音频增强的一个或多个处理参数;使用所述一个或多个处理参数对所述音频数据应用恢复处理,以至少部分地逆转先前的逐帧音频增强;以及对所恢复的原始音频数据应用逐帧音频增强或编辑处理。进一步描述了对应的装置、程序和计算机可读存储介质。

    用于风噪声抑制的方法和音频处理系统

    公开(公告)号:CN118922884A

    公开(公告)日:2024-11-08

    申请号:CN202380026675.0

    申请日:2023-03-08

    Abstract: 本公开涉及一种用于抑制风噪声的方法和系统(1)。该方法包括获取包括多个连续音频信号分段(101、102、103、101'、102'、103')的输入音频信号(100、101'),并且用风噪声抑制器模块(20)抑制输入音频信号中的风噪声以产生风噪声降低的音频信号。该方法还包括使用经训练以预测增益集的神经网络(10),用于降低输入音频信号(100、100')的输入音频信号(100、100')给定样本中的噪声,其中通过将所述增益集施加给输入音频信号(100、101')来形成降噪音频信号,并用混频器(30)混合风噪声降低的音频信号和降噪音频信号,以获取具有经抑制风噪声的输出音频信号。

    S扬声器上M声道输入的渲染

    公开(公告)号:CN114080822B

    公开(公告)日:2023-11-03

    申请号:CN202080044706.1

    申请日:2020-06-17

    Abstract: 一种音频渲染器,其用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置,其包括:第一矩阵应用模块,其用于将主渲染矩阵应用到输入音频信号,以提供适合于在所述多个独立扬声器上播放的第一预渲染信号;第二矩阵应用模块,其用于将副渲染矩阵应用到所述输入音频信号,以提供适合于在所述多个独立扬声器上播放的第二预渲染信号;声道分析模块,其经配置以根据时变声道分布计算混合增益;及混合模块,其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

    使用卷积神经网络架构进行音频处理的方法和装置

    公开(公告)号:CN116348884A

    公开(公告)日:2023-06-27

    申请号:CN202180071332.7

    申请日:2021-10-19

    Abstract: 描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。第一CNN架构可以包括U‑net的收缩路径、多尺度CNN和U‑net的扩张路径。收缩路径可以包括第一编码层,并且可以被配置为生成收缩路径的输出表示。多尺度CNN可以被配置为基于收缩路径的输出表示来生成中间表示。多尺度CNN可以包括至少两条并行卷积路径。扩张路径可以包括第一解码层,并且可以被配置为基于由多尺度CNN生成的中间表示来生成最终表示。在第二CNN架构中,第一编码层可以包括具有至少两条并行卷积路径的第一多尺度CNN,并且第一解码层可以包括具有至少两条并行卷积路径的第二多尺度CNN。

    用于信号传输控制的方法和系统

    公开(公告)号:CN103325386B

    公开(公告)日:2016-12-21

    申请号:CN201210080977.X

    申请日:2012-03-23

    CPC classification number: G10L25/84 G10L25/78 G10L2025/783

    Abstract: 描述了用于信号传输控制的方法和系统。接收或访问具有块或帧的时间序列的音频信号。特征被确定为合起来表征相对于当前时间最近已经处理的顺序音频块/帧。特征确定超过特异度标准,并且相对于最近处理的音频块/帧被延迟。在音频信号中检测语音活动指示。VAD基于一个判决并且涉及当前块/帧特征,该判决超过预设灵敏度阈值,并且在相对于块/帧时长的短时间段上计算而得。VAD和最近特征确定与状态相关信息进行组合,所述信息基于从多个特征中收集、在最近特征确定时间段之前的时间确定的先前特征确定的历史。基于所述组合输出有关开始或终止所述音频信号的判决,或相关的增益。

    声源定位设备和方法
    29.
    发明授权

    公开(公告)号:CN102809742B

    公开(公告)日:2015-03-18

    申请号:CN201110157737.0

    申请日:2011-06-01

    CPC classification number: G01S3/8034

    Abstract: 描述了声源定位设备和方法。基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。评价帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度。每个参考帧幅度差向量反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。至少基于候选位置和相关的相似度估计声源的期望位置。能够至少基于幅度差来进行声源定位。

    用于控制抖动缓冲器的装置和方法

    公开(公告)号:CN103888381A

    公开(公告)日:2014-06-25

    申请号:CN201210560747.3

    申请日:2012-12-20

    Inventor: 孙学京 双志伟

    CPC classification number: H04L47/56 H04L47/2416 H04L47/283 H04L65/80

    Abstract: 描述了一种用于控制抖动缓冲器的装置和方法。在一种实施方式中,用于控制抖动缓冲器的装置包括:用于估计当前语音段中的第一帧的延迟相对于在前语音段中的最后一个锚帧的延迟的偏移值的语音段间延迟抖动估计器;以及用于基于抖动缓冲器的针对每个帧的长期长度和所述偏移值来调节抖动缓冲器的长度的抖动缓冲器控制器。

Patent Agency Ranking