-
公开(公告)号:CN115497496B
公开(公告)日:2023-11-14
申请号:CN202211155820.9
申请日:2022-09-22
Applicant: 东南大学
IPC: G10L21/0224 , G10L21/0232 , G10L19/008 , G10L25/30
Abstract: 本发明公布了一种基于FirePS卷积神经网络的语音增强方法。本发明对含噪单通道语音信号进行短时傅里叶变换,提取对数幅度谱图,作为FirePS卷积神经网络的输入特征进行语音增强。训练阶段,使用训练集语音数据的对数幅度谱图训练FirePS卷积网络,输出增强语音的对数幅度谱图,将训练语音对应的纯净对数幅度谱图作为标签,训练得到基于卷积神经网络的语音增强模型。FirePS卷积神经网络由Fire块、空洞卷积网络块、像素重排块和残差连接构成。测试阶段,FirePS卷积神经网络将测试含噪语音的对数幅度谱图映射为降噪后的对数幅度谱图,结合原测试语音的相位谱,得到增强后的语音时域信号。
-
公开(公告)号:CN115602188A
公开(公告)日:2023-01-13
申请号:CN202211278482.8
申请日:2022-10-19
Applicant: 东南大学(CN)
IPC: G10L21/0316 , G10L25/30
Abstract: 本发明公布了一种基于卷积和循环融合网络的语音增强方法。训练阶段,对含噪语音和纯净语音分帧、加窗、短时傅里叶变换,提取含噪语音的对数幅度谱图,作为卷积和循环融合网络的输入特征,训练目标为理想比值掩膜矩阵,通过反向传播算法训练卷积和循环融合网络;测试阶段,卷积和循环融合网络根据测试含噪语音的对数幅度谱图,估计增强语音的理想比值掩膜矩阵,结合含噪语音的幅度谱和相位谱,得到增强语音的频谱,通过短时傅里叶逆变换,得到增强语音的时域信号。在低信噪比的情况下,语音增强效果显著,对噪声和混响具有很好的鲁棒性和泛化性。
-
公开(公告)号:CN111707990A
公开(公告)日:2020-09-25
申请号:CN202010835547.9
申请日:2020-08-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于密集卷积网络的双耳声源定位方法,在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对密集卷积网络进行训练,得到密集卷积网络分类器;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率。
-
公开(公告)号:CN111707990B
公开(公告)日:2021-05-14
申请号:CN202010835547.9
申请日:2020-08-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于密集卷积网络的双耳声源定位方法,在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对密集卷积网络进行训练,得到密集卷积网络分类器;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率。
-
公开(公告)号:CN112216301A
公开(公告)日:2021-01-12
申请号:CN202011285987.8
申请日:2020-11-17
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。
-
公开(公告)号:CN112201276B
公开(公告)日:2022-04-29
申请号:CN202011251485.3
申请日:2020-11-11
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/21 , G10L25/30
Abstract: 本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。
-
公开(公告)号:CN111948609B
公开(公告)日:2022-02-18
申请号:CN202010872003.X
申请日:2020-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于Soft‑argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft‑argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft‑argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN111948609A
公开(公告)日:2020-11-17
申请号:CN202010872003.X
申请日:2020-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于Soft-argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft-argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft-argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN115497496A
公开(公告)日:2022-12-20
申请号:CN202211155820.9
申请日:2022-09-22
Applicant: 东南大学
IPC: G10L21/0224 , G10L21/0232 , G10L19/008 , G10L25/30
Abstract: 本发明公布了一种基于FirePS卷积神经网络的语音增强方法。本发明对含噪单通道语音信号进行短时傅里叶变换,提取对数幅度谱图,作为FirePS卷积神经网络的输入特征进行语音增强。训练阶段,使用训练集语音数据的对数幅度谱图训练FirePS卷积网络,输出增强语音的对数幅度谱图,将训练语音对应的纯净对数幅度谱图作为标签,训练得到基于卷积神经网络的语音增强模型。FirePS卷积神经网络由Fire块、空洞卷积网络块、像素重排块和残差连接构成。测试阶段,FirePS卷积神经网络将测试含噪语音的对数幅度谱图映射为降噪后的对数幅度谱图,结合原测试语音的相位谱,得到增强后的语音时域信号。
-
公开(公告)号:CN112216301B
公开(公告)日:2022-04-29
申请号:CN202011285987.8
申请日:2020-11-17
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。
-
-
-
-
-
-
-
-
-