基于深度学习的音频伪影减轻
    1.
    发明公开

    公开(公告)号:CN119998877A

    公开(公告)日:2025-05-13

    申请号:CN202380070590.2

    申请日:2023-07-28

    Inventor: 戴佳 李凯 刘晓宇

    Abstract: 对系统进行编程以建立机器学习模型,该机器学习模型包括一系列掩码块。每个掩码块接收音频片段的某个特征向量。每个掩码块包括第一部件和第二部件,第一部件生成用于提取干净语音的第一掩码,第二部件生成用于提取被第一掩码掩盖的残余语音的第二掩码。每个掩码块还基于第一掩码和第二掩码生成特定的特征向量,该特定的特征向量会成为下一个掩码块的某个特征向量。第二部件可以包括门控循环单元层,相较于可以包括多个卷积层的第一部件,该第二部件的计算复杂度较低。此外,该系统被编程为接收输入音频片段的输入特征向量,并且执行机器学习模型以获得输出音频片段的输出特征向量。

    音频去混响
    2.
    发明公开
    音频去混响 审中-实审

    公开(公告)号:CN119604934A

    公开(公告)日:2025-03-11

    申请号:CN202380049925.2

    申请日:2023-06-27

    Inventor: 戴佳 李凯

    Abstract: 用于从真实声学脉冲响应AIR(t)生成一组合成AIR,并使用一组合成AIR来训练机器学习模型的方法和系统,使得机器学习模型在训练后被配置为在给定输入音频信号的情况下生成去混响音频信号。通过选择随机的分离时间点s和随机的交叉渐变持续时间d形成真实AIR的早期部分AIRe(t)和后期部分AIRl(t)来生成合成AIR。通过所提出的方法,将真实AIR“软”分离为早期AIR和后期AIR。具体地,早期AIR在转移时期d期间衰减为零,而后期AIR在转移时期期间从零逐渐增加。早期AIR和后期AIR之和将仍然等于真实AIR。

    用于基于卷积神经网络的语音源分离的方法和装置

    公开(公告)号:CN114341979A

    公开(公告)日:2022-04-12

    申请号:CN202080035468.8

    申请日:2020-05-13

    Abstract: 本文描述了一种基于卷积神经网络(CNN)的语音源分离的方法,该方法包括以下步骤:(a)提供原始带噪语音信号的时频变换的多个帧;(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中;(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征;(d)获得并行卷积路径的输出的聚合输出;和(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。本文还描述了一种用于基于CNN的语音源分离的装置以及相应的计算机程序产品,计算机程序产品包括具有指令的计算机可读存储介质,所述指令在由具有处理能力的设备执行时适于执行所述方法。

    用于言语增强的数据扩充
    4.
    发明公开

    公开(公告)号:CN117643075A

    公开(公告)日:2024-03-01

    申请号:CN202280049982.6

    申请日:2022-07-12

    Abstract: 提供了一种用于对音频信号进行去混响的方法。在一些实施方式中,所述方法涉及:获得真实声脉冲响应(AIR);识别所述真实AIR的与直达声的早期反射相对应的第一部分和所述真实AIR的与所述直达声的晚期反射相对应的第二部分;通过修改所述真实AIR的第一部分和/或所述真实AIR的第二部分来生成一个或多个合成AIR;以及使用所述真实AIR和所述一个或多个合成AIR来生成多个训练样本,每个训练样本包括输入音频信号和混响音频信号,其中,所述混响音频信号是基于所述输入音频信号以及所述真实AIR或所述一个或多个合成AIR之一中的至少一者来生成的,所述多个训练样本被用于训练机器学习模型。

    基于深度学习的语音增强的过度抑制减轻

    公开(公告)号:CN117597732A

    公开(公告)日:2024-02-23

    申请号:CN202280047307.X

    申请日:2022-06-28

    Inventor: 李凯 戴佳 刘晓宇

    Abstract: 公开了一种用于减轻语音和其他非噪声信号的过度抑制的系统。在一些实施例中,系统被编程为使用非线性的不对称损失函数来训练用于语音检测或增强的第一机器学习模型,非线性的不对称损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为接收音频信号并生成指示音频信号中存在的语音量的掩码。可以调整所述掩码以纠正由于语音过度抑制而导致的急剧话音衰减。所述系统还被编程为训练用于笑声或掌声检测的第二机器学习模型。所述系统进一步被编程为通过将调整后的掩码应用到除了音频信号中已被识别为对应于笑声或掌声的部分之外的新音频信号来提高新音频信号的质量。

    用于控制对经低比特率编码的音频的增强的方法和装置

    公开(公告)号:CN112639968B

    公开(公告)日:2024-10-01

    申请号:CN201980055735.5

    申请日:2019-08-29

    Abstract: 描述了一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对所述经低比特率编码的音频数据的音频增强的增强元数据的方法,所述方法包括以下步骤:(a)以低比特率对原始音频数据进行核心编码以获得经编码的音频数据;(b)生成要用于在对所述经编码的音频数据进行核心解码之后在所述解码器侧控制音频增强的类型和/或量的增强元数据;以及(c)输出所述经编码的音频数据和所述增强元数据。进一步描述了被配置为执行所述方法的编码器。此外,描述了一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法以及一种被配置为执行所述方法的解码器。

    言语增强
    8.
    发明公开
    言语增强 审中-实审

    公开(公告)号:CN117693791A

    公开(公告)日:2024-03-12

    申请号:CN202280050059.4

    申请日:2022-07-12

    Abstract: 提供了一种用于增强音频信号的方法。在一些实施方式中,所述方法涉及(a)获得包括多个训练样本的训练集,每个训练样本包括失真音频信号和纯净音频信号。在一些实施方式中,所述方法涉及(b)对于所述多个训练样本中的训练样本:获得所述失真音频信号的频域表示;将所述频域表示提供给包括多个卷积层的卷积神经网络(CNN)和循环元件,其中,所述循环元件的输出被提供给所述多个卷积层的子集,生成预测增强掩码,其中,所述CNN生成所述预测增强掩码;基于所述预测增强掩码来生成预测的增强音频信号;以及基于所述预测的增强音频信号来更新与所述CNN和所述循环元件相关联的权重。

    用于控制对经低比特率编码的音频的增强的方法和装置

    公开(公告)号:CN112639968A

    公开(公告)日:2021-04-09

    申请号:CN201980055735.5

    申请日:2019-08-29

    Abstract: 描述了一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对所述经低比特率编码的音频数据的音频增强的增强元数据的方法,所述方法包括以下步骤:(a)以低比特率对原始音频数据进行核心编码以获得经编码的音频数据;(b)生成要用于在对所述经编码的音频数据进行核心解码之后在所述解码器侧控制音频增强的类型和/或量的增强元数据;以及(c)输出所述经编码的音频数据和所述增强元数据。进一步描述了被配置为执行所述方法的编码器。此外,描述了一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法以及一种被配置为执行所述方法的解码器。

Patent Agency Ranking