-
公开(公告)号:CN119673138A
公开(公告)日:2025-03-21
申请号:CN202411890924.3
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10K11/178
Abstract: 本发明公开了一种基于相干约束的鲁棒性主动路噪控制方法。其步骤包括:(1)对主动路噪控制系统进行硬件配置;(2)实时计算误差信号和参考信号的多重相干系数,并用其作为控制滤波器更新的步长约束因子;(3)通过次级路径分解和参考信号白化,结合频域滤波误差最小均方算法进行控制滤波器的更新;(4)将控制滤波器转换至时域,实时输出控制信号驱动对消扬声器发声,经由次级路径传播后在误差传声器处与路噪信号相干叠加,在人耳附近产生静区。本发明能够使用在多通道复杂场景下的主动路噪控制系统中,基于相干约束的稳定保护方法,在稳态场景中获得了更快的收敛速度和更低的稳态误差,在含噪场景中提高了系统的鲁棒性。
-
公开(公告)号:CN118317225A
公开(公告)日:2024-07-09
申请号:CN202410316269.4
申请日:2024-03-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
Abstract: 本发明公开了一种结合指向性语音活动检测的定向拾音方法。包括以下步骤:生成多人说话场景下的含噪语音信号和标注数据;使用含噪语音信号和DVAD标注作为DVAD模块的输入和目标,训练模块;生成多人说话场景下的含噪语音信号、DVAD标注和目标话者语音,结合标注数据,通过GSC构造FBF和GSC的输出信号;使用FBF和GSC的输出,以及标注数据作为PF模块的输入,目标话者语音作为目标,训练模块;使用训练完成的DVAD模块预测含噪语音,结合DVAD预测和GSC获得FBF和GSC输出,使用训练完成的PF模块对两路输出以及DVAD预测作后处理。本发明能够在背景噪声和竞争话者存在的场景下,有效地抑制干扰信号,同时较完整地保留目标语音成分。
-
公开(公告)号:CN114974188A
公开(公告)日:2022-08-30
申请号:CN202210543147.X
申请日:2022-05-18
Applicant: 北京地平线信息技术有限公司
Inventor: 程光伟 , 朱长宝 , 其他发明人请求不公开姓名
IPC: G10H1/36
Abstract: 公开了一种K歌音频处理方法、装置及计算机可读存储介质。其中,该方法包括:获取K歌用户的图像和/或音频信息;基于图像和/或音频信息,确定K歌用户的用户属性;基于用户属性,对K歌用户的人声音频进行EQ音效处理。本公开的实施例能够自动为不同K歌用户适配相应的EQ音效,而无需手动调整EQ音效,整个过程实施起来非常便捷,且能够有效地保证K歌体验。
-
公开(公告)号:CN115273885A
公开(公告)日:2022-11-01
申请号:CN202210685223.0
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和自注意力神经网络的全频带语音增强方法。其步骤为:使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;对模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到短时傅里叶谱;使用短时傅里叶谱训练SCM‑DPARN模型权重;对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;将待增强的含噪混响语音短时傅里叶谱输入完成训练的SCM‑DPARN模型,得到增强语音的短时傅里叶谱;最后对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。本发明对频域的全局信息进行建模,使模型具有更好的噪声抑制和语音质量保留能力。
-
公开(公告)号:CN118430565A
公开(公告)日:2024-08-02
申请号:CN202410316137.1
申请日:2024-03-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0216 , G10L25/30 , G06N3/0442 , G10K11/178
Abstract: 本发明公开了一种融合神经网络的卡尔曼滤波啸叫抑制路径突变检测方法。该方法包括以下步骤:(1)构建分块频域卡尔曼滤波啸叫抑制模块;(2)构建含有全连接层与门控循环单元的神经网络;(3)通过步骤(1)得到的误差信号,计算得到窄带能量比作为神经网络的输入特征;(4)在训练阶段,在真实标签监督下,对卡尔曼滤波状态误差矩阵进行修正;按照步骤(3)将特征输入神经网络,将网络输出与真实标签的二值交叉熵作为代价函数进行训练;(5)在推断阶段,向完成训练的神经网络输入对应特征,得到网络输出,并转换成二值变量,用于修正卡尔曼滤波状态误差矩阵。本发明可以实现卡尔曼滤波啸叫抑制路径突变检测,及时再次跟踪收敛。
-
公开(公告)号:CN115866482A
公开(公告)日:2023-03-28
申请号:CN202211176938.X
申请日:2022-09-26
Applicant: 北京地平线信息技术有限公司
IPC: H04R3/00
Abstract: 公开了一种音频处理方法及装置,该方法可以获取待处理音频信号,确定主链信号及侧链信号。将侧链信号输入谐波生成器,分别生成奇次谐波信号和偶次谐波信号。确定奇次谐波信号的增益和偶次谐波信号的增益,得到增益后的奇次谐波信号和偶次谐波信号。混合增益后的奇次谐波信号和偶次谐波信号及主链信号,得到音频输出信号。本公开提供的方法可以通过产生奇次谐波信号和偶次谐波信号来改变待处理音频信号的非线性特性,还可以通过确定谐波信号的增益控制奇次谐波信号和偶次谐波信号的比例,能够实现对谐波结构的精确调整,进而实现对待处理音频信号的精细调整,可以提升待处理音频信号的清晰度、明亮度和可懂度。
-
公开(公告)号:CN115294996A
公开(公告)日:2022-11-04
申请号:CN202210684642.2
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 本发明公开了一种用于非线性声学回声消除的半盲源分离方法。包括如下步骤:(1)获取待处理的含有非线性回声的麦克风信号;(2)对非线性映射输入信号进行基函数展开,并利用基于卷积传递函数近似的短时傅里叶变换得到时频域观测模型,得到用于非线性声学回声消除的半盲源分离模型;(3)根据所述半盲源分离模型,基于辅助函数独立向量分析方法或者独立低秩矩阵分析方法实现信号的半盲源分离,优化分离矩阵并分离出近端时频域信号;(4)通过短时傅里叶逆变换得到时域近端信号。本发明的方法具有有效的非线性回声消除性能。
-
公开(公告)号:CN114842820A
公开(公告)日:2022-08-02
申请号:CN202210542761.4
申请日:2022-05-18
Applicant: 北京地平线信息技术有限公司
Inventor: 程光伟 , 朱长宝 , 其他发明人请求不公开姓名
Abstract: 公开了一种K歌音频处理方法、装置及计算机可读存储介质。其中,该方法包括:获取目标歌曲的节奏信息;确定与节奏信息匹配的混响音效信息;基于混响音效信息,调整目标歌曲的K歌音频的混响音效。本公开的实施例能够自动为不同节奏的歌曲适配相应的混响音效,而无需手动调整混响音效,整个过程实施起来非常便捷,且能够有效地保证K歌体验。
-
公开(公告)号:CN119673187A
公开(公告)日:2025-03-21
申请号:CN202411891131.3
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/02 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442
Abstract: 本发明公开了一种基于网络架构搜索的超轻量级语音增强神经网络及方法。该神经网络包括编码器、增强器和解码器,编码器包括:频谱压缩模块,用于对含噪语音频谱在频率维度进行压缩;下采样卷积模块,用于对特征图做特征提取和频率维度的下采样;分组深度分离卷积模块,用于特征图做特征提取和特征增强;增强器包括:双路分组循环神经网络,用于对特征图做时频域建模;解码器包括:分组深度分离卷积模块,用于对特征图做特征提取和特征增强;上采样卷积模块,用于对特征图做特征重建和频率维度的上采样;频谱扩张模块,用于对特征图的频率维度进行扩张。本发明可以以较低的计算量开销实现高性能的语音增强。
-
公开(公告)号:CN115273884A
公开(公告)日:2022-11-01
申请号:CN202210684643.7
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为:设计全频带语音频谱压缩曲线,使用设计的参数初始化MHA‑DPCRN的频谱压缩模块;合成模拟含噪混响语音;对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱;使用短时傅里叶谱训练MHA‑DPCRN模型权重;(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;将含噪混响语音的短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱,并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制,同时保留较好的语音音质。
-
-
-
-
-
-
-
-
-