-
公开(公告)号:CN111948609A
公开(公告)日:2020-11-17
申请号:CN202010872003.X
申请日:2020-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于Soft-argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft-argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft-argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN111707990A
公开(公告)日:2020-09-25
申请号:CN202010835547.9
申请日:2020-08-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于密集卷积网络的双耳声源定位方法,在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对密集卷积网络进行训练,得到密集卷积网络分类器;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率。
-
公开(公告)号:CN112201276B
公开(公告)日:2022-04-29
申请号:CN202011251485.3
申请日:2020-11-11
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/21 , G10L25/30
Abstract: 本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。
-
公开(公告)号:CN111948609B
公开(公告)日:2022-02-18
申请号:CN202010872003.X
申请日:2020-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于Soft‑argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft‑argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft‑argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN112216301B
公开(公告)日:2022-04-29
申请号:CN202011285987.8
申请日:2020-11-17
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。
-
公开(公告)号:CN112201276A
公开(公告)日:2021-01-08
申请号:CN202011251485.3
申请日:2020-11-11
Applicant: 东南大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/21 , G10L25/30
Abstract: 本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。
-
公开(公告)号:CN111707990B
公开(公告)日:2021-05-14
申请号:CN202010835547.9
申请日:2020-08-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于密集卷积网络的双耳声源定位方法,在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对密集卷积网络进行训练,得到密集卷积网络分类器;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的密集卷积网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明,本发明具有很好的鲁棒性,尤其是在高噪声和强混响情况下显著提升了定位正确率。
-
公开(公告)号:CN112216301A
公开(公告)日:2021-01-12
申请号:CN202011285987.8
申请日:2020-11-17
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。
-
-
-
-
-
-
-