Patent search ap:("南京大学") AND inv:"朱天一" Page 1

1.

发明公开
一种平衡降噪量和语音音质的单通道语音增强方法审中-实审

公开(公告)号：CN116913308A

公开(公告)日：2023-10-20

申请号：CN202310707811.4

申请日：2023-06-15

Applicant: 南京大学

Inventor： 汪大涵 , 卢晶 , 朱长宝 , 胡玉祥 , 程光伟 , 刘松 , 朱天一 , 张哲会 , 刘磊

IPC: G10L21/0316 , G10L21/0216 , G10L21/0232 , G10L19/02 , G10L25/18 , G10L25/21 , G10L25/24

Abstract: 本发明公开了一种平衡降噪量和语音音质的单通道语音增强方法。该方法步骤如下：(1)将含噪信号变换到时频域，并利用PEFAC方法估计基频；(2)计算后验信噪比，根据基频估计在倒谱域对其平滑，进而利用固定先验的方法估计后验语音存在概率；(3)根据后验语音存在概率估计噪声功率谱密度；(4)更新后验信噪比，计算语音功率谱密度的最大似然估计；(5)根据基频估计在倒谱域平滑语音功率谱密度，并增强基频，得到先验信噪比的估计；(6)利用自适应先验的方法再次估计后验语音存在概率；(7)计算基于广义伽马先验的对数谱幅度增益，并结合后验语音存在概率导出基于语音存在不确定性的增益估计；(8)增强语谱并变换回时域，得到增强信号。

2.

发明公开
基于频谱压缩和神经网络的多阶段全频带语音增强方法审中-实审

公开(公告)号：CN115273884A

公开(公告)日：2022-11-01

申请号：CN202210684643.7

申请日：2022-06-17

Applicant: 南京大学 , 北京地平线信息技术有限公司

Inventor： 侯仲舒 , 胡沁雯 , 卢晶 , 朱长宝 , 朱天一 , 刘松

IPC: G10L21/0232 , G10L25/30

Abstract: 本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为：设计全频带语音频谱压缩曲线，使用设计的参数初始化MHA‑DPCRN的频谱压缩模块；合成模拟含噪混响语音；对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱；使用短时傅里叶谱训练MHA‑DPCRN模型权重；(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱；将含噪混响语音的短时傅里叶谱输入完成训练的模型，得到增强语音的短时傅里叶谱，并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制，同时保留较好的语音音质。

3.

发明公开
基于自适应卷积的超轻量级语音增强神经网络系统及方法审中-公开

公开(公告)号：CN119673188A

公开(公告)日：2025-03-21

申请号：CN202411891387.4

申请日：2024-12-20

Applicant: 南京大学 , 北京地平线信息技术有限公司

Inventor： 汪大涵 , 容晓彬 , 卢晶 , 胡玉祥 , 朱长宝 , 刘松 , 朱天一

IPC: G10L21/02 , G10L25/30 , G10L25/03 , G06N3/0455 , G06N3/0464

Abstract: 本发明公开了一种基于自适应卷积的超轻量级语音增强神经网络系统及方法。其系统包括编码器：频谱压缩模块，用于对含噪语音频谱进行动态范围和频率维度的压缩；自适应卷积注意力模块，用于通过自适应卷积层和时间通道注意力对压缩后的特征图做频率维度的降采样和特征的提取分析，然后将特征图送入增强器；增强器：双路径分组循环神经网络，用于对语音的子带时间特征和帧内频率特征进行建模；解码器：自适应转置卷积注意力模块，用于对增强器输出的特征图做频率维度的升采样和特征重建；频谱扩张模块，用于对自适应转置卷积注意力模块输出的特征图的频率维度进行扩张。本发明可以以极低的计算复杂度实现较高性能的语音增强。

4.

发明公开
一种适用于语音增强的轻量级神经网络系统及其方法审中-实审

公开(公告)号：CN118230747A

公开(公告)日：2024-06-21

申请号：CN202410198267.X

申请日：2024-02-22

Applicant: 南京大学 , 北京地平线信息技术有限公司

Inventor： 容晓彬 , 卢晶 , 朱长宝 , 胡玉祥 , 程光伟 , 刘松 , 朱天一 , 张哲会 , 刘磊

IPC: G10L21/02 , G10L25/30

Abstract: 本发明公开了一种适用于语音增强的轻量级神经网络系统及其方法。其系统包括编码器、增强器和解码器，编码器包括：频谱压缩模块，用于对含噪语音频谱在频率维度进行压缩；卷积模块，用于对频谱压缩模块压缩后的特征图做特征提取和频率维度的降采样；分组膨胀卷积模块，用于对卷积模块输出的特征图做进一步特征提取和频率维度的降采样，然后将特征图送入增强器；解码器包括：分组膨胀反卷积模块，用于对经增强器增强后的特征图做特征重建和频率维度的升采样；反卷积模块，用于对特征图做进一步的特征重建和频率维度的升采样；频谱扩张模块，用于对特征图的频率维度进行扩张。本发明可以以较低的参数量和计算量开销实现较高性能的语音增强。

Patent Agency Ranking