-
公开(公告)号:CN119673187A
公开(公告)日:2025-03-21
申请号:CN202411891131.3
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/02 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442
Abstract: 本发明公开了一种基于网络架构搜索的超轻量级语音增强神经网络及方法。该神经网络包括编码器、增强器和解码器,编码器包括:频谱压缩模块,用于对含噪语音频谱在频率维度进行压缩;下采样卷积模块,用于对特征图做特征提取和频率维度的下采样;分组深度分离卷积模块,用于特征图做特征提取和特征增强;增强器包括:双路分组循环神经网络,用于对特征图做时频域建模;解码器包括:分组深度分离卷积模块,用于对特征图做特征提取和特征增强;上采样卷积模块,用于对特征图做特征重建和频率维度的上采样;频谱扩张模块,用于对特征图的频率维度进行扩张。本发明可以以较低的计算量开销实现高性能的语音增强。
-
公开(公告)号:CN116913308A
公开(公告)日:2023-10-20
申请号:CN202310707811.4
申请日:2023-06-15
Applicant: 南京大学
IPC: G10L21/0316 , G10L21/0216 , G10L21/0232 , G10L19/02 , G10L25/18 , G10L25/21 , G10L25/24
Abstract: 本发明公开了一种平衡降噪量和语音音质的单通道语音增强方法。该方法步骤如下:(1)将含噪信号变换到时频域,并利用PEFAC方法估计基频;(2)计算后验信噪比,根据基频估计在倒谱域对其平滑,进而利用固定先验的方法估计后验语音存在概率;(3)根据后验语音存在概率估计噪声功率谱密度;(4)更新后验信噪比,计算语音功率谱密度的最大似然估计;(5)根据基频估计在倒谱域平滑语音功率谱密度,并增强基频,得到先验信噪比的估计;(6)利用自适应先验的方法再次估计后验语音存在概率;(7)计算基于广义伽马先验的对数谱幅度增益,并结合后验语音存在概率导出基于语音存在不确定性的增益估计;(8)增强语谱并变换回时域,得到增强信号。
-
公开(公告)号:CN119673188A
公开(公告)日:2025-03-21
申请号:CN202411891387.4
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/02 , G10L25/30 , G10L25/03 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于自适应卷积的超轻量级语音增强神经网络系统及方法。其系统包括编码器:频谱压缩模块,用于对含噪语音频谱进行动态范围和频率维度的压缩;自适应卷积注意力模块,用于通过自适应卷积层和时间通道注意力对压缩后的特征图做频率维度的降采样和特征的提取分析,然后将特征图送入增强器;增强器:双路径分组循环神经网络,用于对语音的子带时间特征和帧内频率特征进行建模;解码器:自适应转置卷积注意力模块,用于对增强器输出的特征图做频率维度的升采样和特征重建;频谱扩张模块,用于对自适应转置卷积注意力模块输出的特征图的频率维度进行扩张。本发明可以以极低的计算复杂度实现较高性能的语音增强。
-
-