-
公开(公告)号:CN110544490B
公开(公告)日:2022-04-05
申请号:CN201910694072.3
申请日:2019-07-30
Applicant: 南京工程学院 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于高斯混合模型和空间功率谱特征的声源定位方法,包含训练和测试两个阶段,在训练阶段提取每个方位的空间功率谱作为特征向量,为每个方位建立高斯混合模型,在测试阶段由高斯混合模型分类器给出测试信号相对于每个方位的似然度,基于最大似然度得到声源方位的估计值。本发明利用了声源方位、声学环境等信息,通过高斯混合模型可以有效刻画类别特征,仅需要一帧信号就可以实现实时声源定位,显著提高了定位性能,具有更强的抗噪能力。
-
公开(公告)号:CN110133572B
公开(公告)日:2022-08-26
申请号:CN201910421932.6
申请日:2019-05-21
Applicant: 南京工程学院 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于Gammatone滤波器和直方图的多声源定位方法,用传声器阵列采集声源信号,通过Gammatone滤波器组获得子带信号,做分帧和加窗处理,转换至频域,计算可控响应功率值,绘制直方图,统计主峰方位和次峰方位的数量,估计主次声源方位。本发明在频域相互交叠而不分隔,避免相位缠绕,多个频率分量的空间谱的平均效应抑制了旁瓣,使主瓣突出,阵元间距不严格限于半波长,无需多帧信息,也无需假定声源在连续多帧内静止不动,实现了实时多声源定位,用直方图融合同一帧内的所有子带信息,作为方位估计的判决量,简单易操作,计算量低,显著提高了主声源和次声源的定位成功率,尤其次声源的定位成功率提升更为明显。
-
公开(公告)号:CN110133596B
公开(公告)日:2023-06-23
申请号:CN201910392452.1
申请日:2019-05-13
Applicant: 江苏第二师范学院(江苏省教育科学研究院)
IPC: G01S5/22
Abstract: 本发明公开了一种基于频点信噪比和偏置软判决的阵列声源定位方法,通过传声器阵列采集声源信号,在时域分割为单帧信号,加窗和离散傅里叶变换为频域信号,同时继续将单帧信号分割为子帧信号,加窗和离散傅里叶变换为频域信号,计算频点信噪比,映射为偏置软判决值,计算候选方位的修正可控响应功率值,估计可控响应功率值最大的候选方位为声源方位。本发明使用麦克风组成阵列,实现立体定位,对整个频带的每个频点估计信噪比,不用考虑声源到达两个传声器的时延差,直接定位,使用Sigmoid函数增加偏置,实现软修正,参考信噪比对特定频点进行抑制,不需要信号统计特性的先验信息,无需利用静音帧的数据估计噪声功率谱,适用于噪声变换较快的环境,在定位成功率和均方误差根RMSE指标上表现更优秀,在中低信噪比环境下定位成功率优明显提升,算法鲁棒性更好。
-
公开(公告)号:CN110133572A
公开(公告)日:2019-08-16
申请号:CN201910421932.6
申请日:2019-05-21
Applicant: 南京林业大学 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于Gammatone滤波器和直方图的多声源定位方法,用传声器阵列采集声源信号,通过Gammatone滤波器组获得子带信号,做分帧和加窗处理,转换至频域,计算可控响应功率值,绘制直方图,统计主峰方位和次峰方位的数量,估计主次声源方位。本发明在频域相互交叠而不分隔,避免相位缠绕,多个频率分量的空间谱的平均效应抑制了旁瓣,使主瓣突出,阵元间距不严格限于半波长,无需多帧信息,也无需假定声源在连续多帧内静止不动,实现了实时多声源定位,用直方图融合同一帧内的所有子带信息,作为方位估计的判决量,简单易操作,计算量低,显著提高了主声源和次声源的定位成功率,尤其次声源的定位成功率提升更为明显。
-
公开(公告)号:CN110544490A
公开(公告)日:2019-12-06
申请号:CN201910694072.3
申请日:2019-07-30
Applicant: 南京林业大学 , 江苏第二师范学院(江苏省教育科学研究院)
Abstract: 本发明公开了一种基于高斯混合模型和空间功率谱特征的声源定位方法,包含训练和测试两个阶段,在训练阶段提取每个方位的空间功率谱作为特征向量,为每个方位建立高斯混合模型,在测试阶段由高斯混合模型分类器给出测试信号相对于每个方位的似然度,基于最大似然度得到声源方位的估计值。本发明利用了声源方位、声学环境等信息,通过高斯混合模型可以有效刻画类别特征,仅需要一帧信号就可以实现实时声源定位,显著提高了定位性能,具有更强的抗噪能力。
-
公开(公告)号:CN110133596A
公开(公告)日:2019-08-16
申请号:CN201910392452.1
申请日:2019-05-13
Applicant: 南京林业大学 , 江苏第二师范学院(江苏省教育科学研究院)
IPC: G01S5/22
Abstract: 本发明公开了一种基于频点信噪比和偏置软判决的阵列声源定位方法,通过传声器阵列采集声源信号,在时域分割为单帧信号,加窗和离散傅里叶变换为频域信号,同时继续将单帧信号分割为子帧信号,加窗和离散傅里叶变换为频域信号,计算频点信噪比,映射为偏置软判决值,计算候选方位的修正可控响应功率值,估计可控响应功率值最大的候选方位为声源方位。本发明使用麦克风组成阵列,实现立体定位,对整个频带的每个频点估计信噪比,不用考虑声源到达两个传声器的时延差,直接定位,使用Sigmoid函数增加偏置,实现软修正,参考信噪比对特定频点进行抑制,不需要信号统计特性的先验信息,无需利用静音帧的数据估计噪声功率谱,适用于噪声变换较快的环境,在定位成功率和均方误差根RMSE指标上表现更优秀,在中低信噪比环境下定位成功率优明显提升,算法鲁棒性更好。
-
公开(公告)号:CN112966648B
公开(公告)日:2023-10-10
申请号:CN202110319459.8
申请日:2021-03-25
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于核扩展块字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X,将训练样本集X划分为B个训练块样本集#imgabs0#步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练块样本#imgabs1#的遮挡字典#imgabs2#和待测块样本#imgabs3#的遮挡字典#imgabs4#得到混合完备遮挡块字典#imgabs5#步骤(S5):根据混合完备遮挡块字典#imgabs6#采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明通过对原始图像分块,构建块图像集,其目的是充分考虑非约束人脸图像数据的复杂性,以及人脸空间拓扑信息在遮挡人脸识别中的重要性,相比原始图像,块图像更集中关注人脸结构特征或遮挡信息,更有利于遮挡人脸的准确识别。
-
公开(公告)号:CN119564200A
公开(公告)日:2025-03-07
申请号:CN202411646554.9
申请日:2024-11-18
Applicant: 南京工程学院 , 中国听力语言康复研究中心
IPC: A61B5/12 , G16H50/30 , G06N3/0442 , G06F18/25 , G06F18/22
Abstract: 本发明公开了一种基于言语测听的听障患者听损评测方法及系统,首先利用言语测听的原始音频数据构建具有原始音频声纹特征的语音合成模型,再清洗原始音频文本数据和用户反馈文本数据,接着采用语音合成模型将原始音频文本数据和用户反馈文本数据转换为音频信号并获得第一音频信号和第二音频信号,再将第一音频信号和第二音频信号进行傅里叶变换并计算各频点能量从而获得多组测听音频数据;本发明实现了具有自动评测患者听力状态的功能,且不需要额外的纯音测听过程,同时基于言语测听结果自动评测患者听力状态的方法能融合患者的个性信息进行评测,不仅评测效率较高,还使得评测结果更为准确,适合被广泛推广和使用。
-
公开(公告)号:CN112966649A
公开(公告)日:2021-06-15
申请号:CN202110319464.9
申请日:2021-03-25
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于核扩展字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X;步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练样本集X的遮挡字典D1和测试样本集Y的遮挡字典D2,得到混合完备遮挡字典D;步骤(S5):根据混合完备遮挡字典D,采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明用来消除样本字典中像素冗余信息,获取更具判别性和表征性的字典,使样本字典中仅包含人脸结构特征,而不含有像素冗余信息和干扰信息,并使遮挡字典中仅包含训练样本和测试样本的遮挡信息,而无人脸结构特征,两者相结合,以提高遮挡人脸识别的准确性。
-
公开(公告)号:CN112904279A
公开(公告)日:2021-06-04
申请号:CN202110059164.1
申请日:2021-01-18
Applicant: 南京工程学院
IPC: G01S5/22 , G06N3/04 , G10L21/0208 , G10L21/0216 , G10L25/30 , G10L25/45
Abstract: 本发明公开了一种基于卷积神经网络和子带SRP‑PHAT空间谱的声源定位方法,包括:麦克风阵列采集语音信号,对采集的语音信号进行分帧和加窗的预处理得到单帧信号;计算每帧信号的子带SRP‑PHAT空间谱矩阵;将所有帧信号的子带SRP‑PHAT空间谱矩阵输入训练完成的卷积神经网络,输出语音信号属于每个方位角的概率,取概率最大的方位角作为该语音信号的声源方位角估计值。本发明可提高麦克风阵列在复杂声学环境下的声源定位性能,提高对声源空间结构、混响和噪声的泛化能力;可离线完成卷积神经网络的训练过程,将训练好的卷积神经网络保存于内存中,测试时仅需要一帧信号就可以实现实时声源定位。
-
-
-
-
-
-
-
-
-