在自动语音识别中应用声调特征的装置和方法

    公开(公告)号:CN103366737B

    公开(公告)日:2016-08-10

    申请号:CN201210090660.4

    申请日:2012-03-30

    Inventor: 丁沛 贺利强

    CPC classification number: G10L15/02 G10L25/93

    Abstract: 本发明提出了一种在自动语音识别中应用声调特征的装置和方法,该装置包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。在本发明的一实施例中,该装置还包括特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。

    语音的频谱波峰的检测以及语音识别方法和系统

    公开(公告)号:CN101465122A

    公开(公告)日:2009-06-24

    申请号:CN200710199194.2

    申请日:2007-12-20

    CPC classification number: G10L21/0208

    Abstract: 本发明提供了一种语音的频谱波峰的检测方法和装置以及语音识别方法和系统。该检测语音的频谱波峰的方法包括:从上述语音的功率谱中检测出语音频谱波峰候选;以及根据波峰间距和/或相邻帧的波峰位置,去除上述语音频谱波峰候选中的噪声波峰,以检测出语音频谱波峰。在本发明中,通过在语音频谱波峰的检测中利用波峰间距以及相邻帧的限制去除噪声波峰,能够得到可靠的语音频谱波峰。进而,通过将所得到的语音频谱波峰的能量值代替整个功率谱用于提取语音的梅尔倒谱系数特征,能够在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。

    在自动语音识别中应用声调特征的装置和方法

    公开(公告)号:CN103366737A

    公开(公告)日:2013-10-23

    申请号:CN201210090660.4

    申请日:2012-03-30

    Inventor: 丁沛 贺利强

    CPC classification number: G10L15/02 G10L25/93

    Abstract: 本发明提出了一种在自动语音识别中应用声调特征的装置和方法,该装置包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。在本发明的一实施例中,该装置还包括特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。

    说话人认证的注册和验证方法及装置

    公开(公告)号:CN101051464A

    公开(公告)日:2007-10-10

    申请号:CN200610073144.5

    申请日:2006-04-06

    CPC classification number: G10L17/04

    Abstract: 本发明提供了说话人认证的注册方法和装置、说话人认证的验证方法和装置以及说话人认证系统。该说话人认证的注册方法包括:根据说话人的注册语音,提取语音特征向量序列;以及利用上述语音特征向量序列,生成说话人模板;其中,上述提取语音特征向量序列的步骤包括:利用上述说话人的注册语音,生成针对该注册语音的滤波器组,用于滤出该注册语音的频谱中的共振峰位置和能量;利用上述生成的滤波器组,对该注册语音的频谱进行滤波;以及根据滤波后的上述注册语音,生成特征向量序列。

    训练神经网络声学模型的方法和装置及语音识别方法和装置

    公开(公告)号:CN107195299A

    公开(公告)日:2017-09-22

    申请号:CN201610142994.X

    申请日:2016-03-14

    Abstract: 本发明提供训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。

    改进神经网络语言模型的方法和装置及语音识别方法和装置

    公开(公告)号:CN106486115A

    公开(公告)日:2017-03-08

    申请号:CN201510543232.6

    申请日:2015-08-28

    Abstract: 本发明提供改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的改进语音识别系统的神经网络语言模型的装置,包括:词分类单元,其对上述语音识别系统的词典中的词进行分类;语言模型训练单元,其基于分类的结果训练基于类的语言模型;和向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。

    用于优化语音识别结果的方法和装置

    公开(公告)号:CN105632499A

    公开(公告)日:2016-06-01

    申请号:CN201410602377.4

    申请日:2014-10-31

    Inventor: 雍坤 丁沛 朱会峰

    Abstract: 本发明提供用于优化语音识别结果的方法和装置。根据一个实施方式,用于优化语音识别结果的装置包括:接收单元,其接收语音识别结果;计算单元,其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度;以及替换单元,其在上述发音相似度高于第1阈值的情况下,将上述片段替换为上述关键词。

    噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置

    公开(公告)号:CN101154383B

    公开(公告)日:2010-10-06

    申请号:CN200610141240.9

    申请日:2006-09-29

    Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。

    噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置

    公开(公告)号:CN101154383A

    公开(公告)日:2008-04-02

    申请号:CN200610141240.9

    申请日:2006-09-29

    Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。

Patent Agency Ranking