-
公开(公告)号:CN110634502A
公开(公告)日:2019-12-31
申请号:CN201910840498.5
申请日:2019-09-06
Applicant: 南京邮电大学
IPC: G10L21/0272 , G10L15/02 , G10L15/06 , G10L15/16
Abstract: 本发明提供了一种基于深度神经网络的单通道语音分离算法,主要包括以下步骤:对训练语音样本进行预处理,并提取其特征信息;使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果。本发明利用输入输出之间的非线性关系来训练深度神经网络,与传统基于单输出深度神经网络的分离方法相比,它充分挖掘了输出之间的联合关系,且分离效率较高,一次可分离两个源语音信号,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
-
公开(公告)号:CN110459225A
公开(公告)日:2019-11-15
申请号:CN201910748773.0
申请日:2019-08-14
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于CNN融合特征的说话人辨认系统,该系统对输入语音信号进行预处理;再利用语谱图对卷积神经网络进行训练;最后寻找最优特征后进行特征融合。该方法克服了现有语音说话人识别系统的不足,与传统基于单一深度特征的说话人系统相比较,在不增加系统训练复杂度的前提下,可以从深浅不同的层次对说话人身份信息进行更加全面地描述,从而使得系统的识别率更高,性能得到进一步提升,可以很好地应用于智能说话人身份信息的辨认。
-
公开(公告)号:CN106448681B
公开(公告)日:2019-10-18
申请号:CN201610817892.3
申请日:2016-09-12
Applicant: 南京邮电大学
Abstract: 本发明公开了一种超矢量的说话人辨认方法,包括训练阶段和实测阶段。前者包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型。后者包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。本发明利用原始超矢量的相邻均值矢量间的高相关性,实现了平滑数据的过渡,降低计算复杂度,对GMM组成超矢量的各个均值向量进行重新组合,使其更加契合SVM对数据处理的机制。通过选择适当的超矢量重组方式,有效提升系统的识别性能,减少了运算时间。
-
公开(公告)号:CN110148419A
公开(公告)日:2019-08-20
申请号:CN201910337555.8
申请日:2019-04-25
Applicant: 南京邮电大学
IPC: G10L21/0208 , G10L21/0264 , G10L21/0308 , G10L25/30
Abstract: 本发明揭示了一种基于深度学习的语音分离方法,首先是将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理,之后进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位,然后再将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;接着将归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;最后将归一化处理后测试集信号通过训练模型预测,并完成语音分离;本发明将幅度与相位联合训练,在真实环境下语音分离效果更佳;另外,本发明采用深度神经网络的adam算法,使信噪比与语音的可懂度得到大幅度提高。
-
公开(公告)号:CN106548780A
公开(公告)日:2017-03-29
申请号:CN201610970186.2
申请日:2016-10-28
Applicant: 南京邮电大学
IPC: G10L19/00
Abstract: 本发明公开了一种语音信号的压缩感知重构方法,该方法克服了现有语音信号压缩重构技术的不足,提出一种基于平滑l0(Smooth L0)范数的语音信号压缩重构方法,该方法与传统的语音信号重构方法比较,SL0算法在重构前不需要知道该语音信号的稀疏度,而且具有计算量小、匹配度高、重构时间少等优点。为了达成上述目的,本发明的解决方案是:使用新的平滑L0范数进行语音信号的重构。本发明相比于传统的语音信号重构方法,提出的改进的平滑L0算法采用了最速下降法和梯度投影算法,因此具有计算量小、匹配度高以及重构时间少等优点。
-
公开(公告)号:CN106448681A
公开(公告)日:2017-02-22
申请号:CN201610817892.3
申请日:2016-09-12
Applicant: 南京邮电大学
Abstract: 本发明公开了一种超矢量的说话人辨认方法,包括训练阶段和实测阶段。前者包括利用说话人语音信号的特征参数为每一个说话人训练一个GMM,从GMM提取超矢量,然后对该超矢量进行重组得到重组超矢量,再利用重组超矢量训练一个SVM模型。后者包括用相同的方法对测试语音提取测试的重组超矢量,然后利用训练阶段得到的SVM模型对测试的重组超矢量进行判别,从而判定测试语音所代表的说话人的身份。本发明利用原始超矢量的相邻均值矢量间的高相关性,实现了平滑数据的过渡,降低计算复杂度,对GMM组成超矢量的各个均值向量进行重新组合,使其更加契合SVM对数据处理的机制。通过选择适当的超矢量重组方式,有效提升系统的识别性能,减少了运算时间。
-
公开(公告)号:CN102915735B
公开(公告)日:2014-06-04
申请号:CN201210357116.1
申请日:2012-09-21
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于压缩感知的含噪语音信号重构方法,属于信号处理技术领域。本发明首先将传统压缩感知重构的优化问题转化为标准的BCQP问题,降低了求解难度;进一步利用快速梯度投影算法对其进行求解,将共轭性与梯度投影算法相结合,利用已知点处的梯度投影构造一组共轭方向,并沿彼此共轭的方向进行搜索,求出目标函数的极小值,提高了算法收敛速度;并且根据原始含噪语音信号的信噪比估计值自适应地确定最优的正则化参数,提高了重构信号的信噪比。本发明还公开了一种基于压缩感知的含噪语音信号重构装置,解码端采用本发明的重构方法。相比现有技术,本发明具有更快的收敛速度及更高的重构信号信噪比。
-
公开(公告)号:CN119993175A
公开(公告)日:2025-05-13
申请号:CN202510157170.9
申请日:2025-02-13
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L21/02 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0464
Abstract: 本发明涉及语音增强技术领域,具体涉及一种基于改进卷积循环网络的轻量化单通道语音增强方法:充分利用改进卷积循环网络在提取特征时的出色能力,使用聚合分组双路径循环网络和卷积混合分组双路径循环网络来提升多通道的深度时频特征以及对各通道之间的特征进行融合,使得深度特征所包含的语音信息更加的丰富,再利用深度特征来训练分离模型,进一步增强语音的性能,并且提出了聚合分组双路径循环网络和卷积混合分组双路径循环网络,改进了分组双路径循环网络架构,不仅使得卷积循环网络的语音增强性能得到了提升,而且保持了模型的轻量化,从而提高了增强模型的有效性,使得增强语音的清晰度和可懂度提高。
-
公开(公告)号:CN119150216A
公开(公告)日:2024-12-17
申请号:CN202410949698.5
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G06F18/25 , G06F18/21 , G06F18/241 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于Transformer模态内感知和模态间交叉融合的多模态情感识别方法,步骤包括:首先,对语音和文本进行编码提取深度特征,然后基于本发明提出的基于Transformer的模态内感知模块,捕获各个模态内部的长距离依赖关系,实现情感特征的局部感知学习,降低深度特征中的冗余信息;其次,为了融合未对齐的多模态序列信息,充分利用不同模态信息的互补性,本发明提出基于Transformer的模态间交互融合模块来捕捉不同模态间信息依赖关系,获得融合后的多模态全局信息;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,进一步提高多模态情感识别系统的识别性能和泛化能力。
-
公开(公告)号:CN119107963A
公开(公告)日:2024-12-10
申请号:CN202410954745.5
申请日:2024-07-17
Applicant: 南京邮电大学
IPC: G10L21/02 , G10L21/0316
Abstract: 本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法,属于语音增强技术领域。本发明在复数域进行去混响处理,首先将信号进行STFT变换得到复数谱,以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次,为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分,设计了一种时频双路径复多头注意力机制TF‑CMHA,更准确地识别语音成分并抑制混响成分。最后,引入了复乘法运算和联合约束损失函数,模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升,使系统去混响后的语音在各种测量指标上均有提升,适用于语音前端处理。
-
-
-
-
-
-
-
-
-