-
公开(公告)号:CN106019230A
公开(公告)日:2016-10-12
申请号:CN201610365659.6
申请日:2016-05-27
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于i‑vector说话人识别的声源定位方法,该方法通过引入鉴别互相关函数的特征,得到鉴别互相关函数,将此特征分为训练集合测试集,对i‑vector说话人识别系统中的模型进行训练和测试,采用最大期望算法实现对开发集i‑vector向量分布概率函数的最大似然估计,建立起一个受语音时长约束的PLDA模型,能够准确地进行语音识别以及声源定位,这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。
-
公开(公告)号:CN106019230B
公开(公告)日:2019-01-08
申请号:CN201610365659.6
申请日:2016-05-27
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于i‑vector说话人识别的声源定位方法,该方法通过引入鉴别互相关函数的特征,得到鉴别互相关函数,将此特征分为训练集合测试集,对i‑vector说话人识别系统中的模型进行训练和测试,采用最大期望算法实现对开发集i‑vector向量分布概率函数的最大似然估计,建立起一个受语音时长约束的PLDA模型,能够准确地进行语音识别以及声源定位,这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。
-
公开(公告)号:CN107703486B
公开(公告)日:2021-03-23
申请号:CN201710731343.9
申请日:2017-08-23
Applicant: 南京邮电大学
Abstract: 本发明提供了一种基于卷积神经网络CNN的声源定位算法。该方法通过引入鉴别互相关函数的特征,利用Roomsim的仿真环境以及两个麦克风所接收的信号,得到在带有混响和噪声环境下的互相关函数,并分帧截取得到训练集和测试集,对该特征进行训练得到卷积神经网络,即CNN模型,训练过程中,采用ReLU函数作为激活函数,并将测试集在该模型下进行声源定位估计,最后采用贝叶斯决策来构建判决式决定测试样本的类别,使得条件概率p(rs|Y)最大的位置即为估计出声源的真实位置。这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。
-
公开(公告)号:CN107703486A
公开(公告)日:2018-02-16
申请号:CN201710731343.9
申请日:2017-08-23
Applicant: 南京邮电大学
CPC classification number: G01S5/18 , G06N3/0454
Abstract: 本发明提供了一种基于卷积神经网络CNN的声源定位算法。该方法通过引入鉴别互相关函数的特征,利用Roomsim的仿真环境以及两个麦克风所接收的信号,得到在带有混响和噪声环境下的互相关函数,并分帧截取得到训练集和测试集,对该特征进行训练得到卷积神经网络,即CNN模型,训练过程中,采用ReLU函数作为激活函数,并将测试集在该模型下进行声源定位估计,最后采用贝叶斯决策来构建判决式决定测试样本的类别,使得得条件概率p(rs|Y)最大的位置即为估计出声源的真实位置。这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。
-
公开(公告)号:CN107424625A
公开(公告)日:2017-12-01
申请号:CN201710499621.2
申请日:2017-06-27
Applicant: 南京邮电大学
IPC: G10L25/24 , G10L25/45 , G10L21/0216 , G10L21/0208 , G10L15/14 , G10L15/10
Abstract: 本发明公开了一种基于支持向量机(SVM)框架的多通道语音活动检测方法。针对传统的语音活动检测方法容易引入较大的噪声,并且难以根据环境的变化而自动调整阈值,本发明利用麦克风阵列融合了语音信号的时空信息特点,结合贴近人耳感知特性的梅尔频率倒谱系数(MFCC),使用具有较好分类能力的支持向量机(SVM)来对语音/非语音进行分类,建立了针对语音和非语音的模型,能够准确的进行语音活动检测,有效的解决了在传统的语音活动检测算法的问题。
-
-
-
-