-
公开(公告)号:CN103366737B
公开(公告)日:2016-08-10
申请号:CN201210090660.4
申请日:2012-03-30
Applicant: 株式会社东芝
IPC: G10L15/02
Abstract: 本发明提出了一种在自动语音识别中应用声调特征的装置和方法,该装置包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。在本发明的一实施例中,该装置还包括特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
-
公开(公告)号:CN101465122A
公开(公告)日:2009-06-24
申请号:CN200710199194.2
申请日:2007-12-20
Applicant: 株式会社东芝
CPC classification number: G10L21/0208
Abstract: 本发明提供了一种语音的频谱波峰的检测方法和装置以及语音识别方法和系统。该检测语音的频谱波峰的方法包括:从上述语音的功率谱中检测出语音频谱波峰候选;以及根据波峰间距和/或相邻帧的波峰位置,去除上述语音频谱波峰候选中的噪声波峰,以检测出语音频谱波峰。在本发明中,通过在语音频谱波峰的检测中利用波峰间距以及相邻帧的限制去除噪声波峰,能够得到可靠的语音频谱波峰。进而,通过将所得到的语音频谱波峰的能量值代替整个功率谱用于提取语音的梅尔倒谱系数特征,能够在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。
-
公开(公告)号:CN103366737A
公开(公告)日:2013-10-23
申请号:CN201210090660.4
申请日:2012-03-30
Applicant: 株式会社东芝
IPC: G10L15/02
Abstract: 本发明提出了一种在自动语音识别中应用声调特征的装置和方法,该装置包括:分布估计模块,被配置为估计语音信号中的有声帧的声调特征的全局分布以及用于无声帧的随机值的全局分布;规整化模块,被配置为根据有声帧的声调特征的全局分布对用于无声帧的随机值的全局分布进行规整化;以及随机值调整模块,被配置为根据规整化的全局分布调整用于无声帧的随机值,以便将调整后的随机值赋值给语音信号中的无声帧,作为无声帧的声调特征。在本发明的一实施例中,该装置还包括特征合并模块,被配置为合并有声帧和无声帧的非声调声学特征、所述声调特征以及语音层级参数,以用于自动语音识别。
-
公开(公告)号:CN101089952A
公开(公告)日:2007-12-19
申请号:CN200610092246.1
申请日:2006-06-15
Applicant: 株式会社东芝
CPC classification number: G10L15/20 , G10L15/02 , G10L21/0208
Abstract: 本发明提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法及训练语音模型的方法和装置。本发明的噪声抑制方法通过最小均方误差估计进行,其中采用分段线性函数来近似合流超几何函数,从而能够极大的减少计算量,同时保持抑制噪声性能。此外,本发明为了避免产生能量极低的语音谱成分,在最小均方误差估计之后利用几何数列权重对语音谱在时间轴和频率轴进行平滑。此外,本发明通过调整先验SNR来控制噪声抑制和语音失真之间的平衡。
-
公开(公告)号:CN101051464A
公开(公告)日:2007-10-10
申请号:CN200610073144.5
申请日:2006-04-06
Applicant: 株式会社东芝
CPC classification number: G10L17/04
Abstract: 本发明提供了说话人认证的注册方法和装置、说话人认证的验证方法和装置以及说话人认证系统。该说话人认证的注册方法包括:根据说话人的注册语音,提取语音特征向量序列;以及利用上述语音特征向量序列,生成说话人模板;其中,上述提取语音特征向量序列的步骤包括:利用上述说话人的注册语音,生成针对该注册语音的滤波器组,用于滤出该注册语音的频谱中的共振峰位置和能量;利用上述生成的滤波器组,对该注册语音的频谱进行滤波;以及根据滤波后的上述注册语音,生成特征向量序列。
-
公开(公告)号:CN107195299A
公开(公告)日:2017-09-22
申请号:CN201610142994.X
申请日:2016-03-14
Applicant: 株式会社东芝
IPC: G10L15/16
Abstract: 本发明提供训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
-
公开(公告)号:CN106486115A
公开(公告)日:2017-03-08
申请号:CN201510543232.6
申请日:2015-08-28
Applicant: 株式会社东芝
Abstract: 本发明提供改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的改进语音识别系统的神经网络语言模型的装置,包括:词分类单元,其对上述语音识别系统的词典中的词进行分类;语言模型训练单元,其基于分类的结果训练基于类的语言模型;和向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
-
-
公开(公告)号:CN101154383B
公开(公告)日:2010-10-06
申请号:CN200610141240.9
申请日:2006-09-29
Applicant: 株式会社东芝
Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
公开(公告)号:CN101154383A
公开(公告)日:2008-04-02
申请号:CN200610141240.9
申请日:2006-09-29
Applicant: 株式会社东芝
Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
-
-
-
-
-
-
-
-