一种基于声门波信息的语音识别方法

    公开(公告)号:CN112735386B

    公开(公告)日:2023-03-24

    申请号:CN202110063110.2

    申请日:2021-01-18

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;特征提取采用动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。本发明以声门波作为源信号,充分表征声门激励与声带振动机理在语音识别中的作用,并且提出了动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集,解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。

    一种面向不均衡语音数据集的数据生成方法及系统

    公开(公告)号:CN112861928A

    公开(公告)日:2021-05-28

    申请号:CN202110069645.0

    申请日:2021-01-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种面向不均衡语音数据集的数据生成方法及系统,所述方法包括以下步骤:S1、将输入样本聚类划分为若干聚类簇;S2、计算每个聚类簇的不均衡率,根据不均衡率确定数据生成的安全聚类簇;S3、计算安全聚类簇内少数类样本的空间分布密度;S4、根据空间分布密度计算每个聚类簇的采样权重;S5、根据采样权重,在安全聚类簇内生成样本数,基于样本数进行样本生成;所述系统用于实现上述方法,包括样本聚类划分模块、安全聚类簇计算模块,空间分布密度计算模块、采样权重计算模块和样本生成模块。本发明对不均衡分布语音数据集进行样本均衡,使其更适用于对语音数据集的均衡化处理,生成分化能力和信息价值高的少数类语音特征样。

    一种基于声门波信息的语音识别方法

    公开(公告)号:CN112735386A

    公开(公告)日:2021-04-30

    申请号:CN202110063110.2

    申请日:2021-01-18

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;特征提取采用动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。本发明以声门波作为源信号,充分表征声门激励与声带振动机理在语音识别中的作用,并且提出了动态图像专家组标准MPEG‑7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为识别特征集,解决了帧间重复与过拟合的问题同时不依赖于基音频率估计结果。

    基于感知谱收敛率的语音识别方法

    公开(公告)号:CN112863517B

    公开(公告)日:2023-01-06

    申请号:CN202110071190.6

    申请日:2021-01-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于感知谱收敛率的语音识别方法,包括以下步骤:对语音信号进行多频带划分,得到分频带语音信号;通过对分频带语音信号分帧、作傅里叶变换、计算频谱图的峰值之和和动态范围并进行非线性压缩得到语音信号的感知谱收敛率;将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。本发明通过多频带划分使语音信号具有听觉感知特性,通过直接对语音信号提取感知谱收敛率,保证实时性的同时克服了提取特征时依赖基音周期、无法度量高维混沌特性的问题,能够更加准确地表征语音信号的非线性特性,提高语音识别的准确率。

    基于感知谱收敛率的语音识别方法

    公开(公告)号:CN112863517A

    公开(公告)日:2021-05-28

    申请号:CN202110071190.6

    申请日:2021-01-19

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于感知谱收敛率的语音识别方法,包括以下步骤:对语音信号进行多频带划分,得到分频带语音信号;通过对分频带语音信号分帧、作傅里叶变换、计算频谱图的峰值之和和动态范围并进行非线性压缩得到语音信号的感知谱收敛率;将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。本发明通过多频带划分使语音信号具有听觉感知特性,通过直接对语音信号提取感知谱收敛率,保证实时性的同时克服了提取特征时依赖基音周期、无法度量高维混沌特性的问题,能够更加准确地表征语音信号的非线性特性,提高语音识别的准确率。

Patent Agency Ranking