用于信号传输控制的方法和系统

    公开(公告)号:CN103325386A

    公开(公告)日:2013-09-25

    申请号:CN201210080977.X

    申请日:2012-03-23

    CPC classification number: G10L25/84 G10L25/78 G10L2025/783

    Abstract: 描述了用于信号传输控制的方法和系统。接收或访问具有块或帧的时间序列的音频信号。特征被确定为合起来表征相对于当前时间最近已经处理的顺序音频块/帧。特征确定超过特异度标准,并且相对于最近处理的音频块/帧被延迟。在音频信号中检测语音活动指示。VAD基于一个判决并且涉及当前块/帧特征,该判决超过预设灵敏度阈值,并且在相对于块/帧时长的短时间段上计算而得。VAD和最近特征确定与状态相关信息进行组合,所述信息基于从多个特征中收集、在最近特征确定时间段之前的时间确定的先前特征确定的历史。基于所述组合输出有关开始或终止所述音频信号的判决,或相关的增益。

    用户生成的内容的空间增强
    32.
    发明公开

    公开(公告)号:CN119678508A

    公开(公告)日:2025-03-21

    申请号:CN202380058435.9

    申请日:2023-08-07

    Abstract: 提供了用于增强音频内容的方法、系统和介质。在一些实施例中,一种用于增强音频内容的方法涉及从第一音频捕获设备接收多声道音频信号,并从第二音频捕获设备接收双耳音频信号。所述方法还可以涉及从多声道音频信号中提取一个或多个对象。所述方法还可以涉及基于与一个或多个对象相关联的空间信息来生成空间增强掩码。所述方法还可以涉及将空间增强掩码应用于双耳音频信号,以增强双耳音频信号的空间特性,从而生成增强的双耳音频信号。所述方法还可以涉及基于增强的双耳音频信号生成输出双耳音频信号。

    用于利用多个监督器进行神经网络训练的方法

    公开(公告)号:CN118369669A

    公开(公告)日:2024-07-19

    申请号:CN202280081203.0

    申请日:2022-12-08

    Abstract: 本公开涉及一种用于设计处理器(20)的方法和一种计算机实施的神经网络。该方法包括获得输入数据和对应的基准真相目标数据并且将输入数据提供给处理器(20),以在给定输入数据的情况下输出对目标数据的第一预测。该方法进一步包括:将由处理器模块(21:1,21:2,……,21:n‑1)输出的潜在变量提供给监督器模块(22:1,22:2,22:3,……,22:n‑1),该监督器模块基于潜在变量来输出对目标数据的第二预测;以及通过将这些对目标数据的预测与基准真相目标数据进行比较来确定第一损失度量和第二损失度量。该方法进一步包括基于第一损失度量和第二损失度量来训练处理器(20)和监督器模块(22:1,22:2,22:3,……,22:n‑1),并且通过移除、替换和添加处理器模块中的至少一项操作来调整处理器。

    响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

    公开(公告)号:CN114401481B

    公开(公告)日:2024-05-17

    申请号:CN202210057409.1

    申请日:2014-12-18

    Abstract: 本公开涉及响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频。在一些实施例中,提供用于响应多通道音频信号的通道产生双耳信号的虚拟化方法,这些虚拟化方法向各通道应用双耳房间脉冲响应(BRIR),包含通过使用至少一个反馈延迟网络(FDN)以向通道的下混应用公共晚期混响。在一些实施例中,输入信号通道在第一处理路径中被处理,以向各通道应用的用于该通道的单通道BRIR的直接响应和早期反射部分,并且,通道的下混在包含至少一个应用公共晚期混响的FDN的第二处理路径中被处理。典型地,公共晚期混响模仿单通道BRIR中的至少一些的晚期混响部分的共同宏观属性。其它方面是被配置为执行方法的任何实施例的耳机虚拟化器。

    针对伪影和失真的基于深度学习的语音增强的稳健性/性能改善

    公开(公告)号:CN117083672A

    公开(公告)日:2023-11-17

    申请号:CN202280020155.4

    申请日:2022-03-17

    Abstract: 描述了一种处理音频信号的方法。所述方法包括:第一步骤,用于对音频信号的第一分量应用增强和/或对音频信号的第二分量相对于第一分量应用抑制;以及第二步骤,即通过将基于深度学习的模型应用于第一步骤的输出来修改第一步骤的输出,以在感知上改善音频信号的第一分量。还描述了一种用于执行所述方法的装置以及对应的程序和计算机可读存储介质。

    用于处理双耳录音的方法和设备
    37.
    发明公开

    公开(公告)号:CN116349252A

    公开(公告)日:2023-06-27

    申请号:CN202180068152.3

    申请日:2021-09-15

    Abstract: 本发明涉及一种用于处理表示由双耳录音设备获取的输入双耳音频信号的第一音频信号和第二音频信号的方法和设备。本发明还涉及一种用于在扬声器系统上渲染双耳音频信号的方法。用于处理双耳信号的方法包括:从第一音频信号提取音频信息;计算用于降低第一音频信号中的噪声的频带增益;以及根据动态缩放因子对第一音频信号的相应频带应用频带增益,以提供第一输出音频信号。其中,该动态缩放因子的值在零到一之间,并且被选择为减少该第一音频信号的质量降级。

    响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频

    公开(公告)号:CN114401481A

    公开(公告)日:2022-04-26

    申请号:CN202210057409.1

    申请日:2014-12-18

    Abstract: 本公开涉及响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频。在一些实施例中,提供用于响应多通道音频信号的通道产生双耳信号的虚拟化方法,这些虚拟化方法向各通道应用双耳房间脉冲响应(BRIR),包含通过使用至少一个反馈延迟网络(FDN)以向通道的下混应用公共晚期混响。在一些实施例中,输入信号通道在第一处理路径中被处理,以向各通道应用的用于该通道的单通道BRIR的直接响应和早期反射部分,并且,通道的下混在包含至少一个应用公共晚期混响的FDN的第二处理路径中被处理。典型地,公共晚期混响模仿单通道BRIR中的至少一些的晚期混响部分的共同宏观属性。其它方面是被配置为执行方法的任何实施例的耳机虚拟化器。

    用于基于卷积神经网络的语音源分离的方法和装置

    公开(公告)号:CN114341979A

    公开(公告)日:2022-04-12

    申请号:CN202080035468.8

    申请日:2020-05-13

    Abstract: 本文描述了一种基于卷积神经网络(CNN)的语音源分离的方法,该方法包括以下步骤:(a)提供原始带噪语音信号的时频变换的多个帧;(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中;(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征;(d)获得并行卷积路径的输出的聚合输出;和(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。本文还描述了一种用于基于CNN的语音源分离的装置以及相应的计算机程序产品,计算机程序产品包括具有指令的计算机可读存储介质,所述指令在由具有处理能力的设备执行时适于执行所述方法。

    S扬声器上M声道输入(S<M)的渲染

    公开(公告)号:CN114080822A

    公开(公告)日:2022-02-22

    申请号:CN202080044706.1

    申请日:2020-06-17

    Abstract: 一种音频渲染器,其用于将具有M个声道的多声道音频信号渲染到具有S个独立扬声器的便携式装置,其包括:第一矩阵应用模块,其用于将主渲染矩阵应用到输入音频信号,以提供适合于在所述多个独立扬声器上播放的第一预渲染信号;第二矩阵应用模块,其用于将副渲染矩阵应用到所述输入音频信号,以提供适合于在所述多个独立扬声器上播放的第二预渲染信号;声道分析模块,其经配置以根据时变声道分布计算混合增益;及混合模块,其经配置以通过基于所述混合增益混合所述第一及第二预渲染信号来产生经渲染输出信号。

Patent Agency Ranking