-
公开(公告)号:CN101452699A
公开(公告)日:2009-06-10
申请号:CN200710197104.6
申请日:2007-12-04
Applicant: 株式会社东芝
IPC: G10L13/08
CPC classification number: G10L13/08
Abstract: 本发明提供数据驱动训练差分韵律自适应模型、生成差分韵律自适应模型、韵律预测和语音合成的方法及装置。该数据驱动训练差分韵律自适应模型的方法包括:用时长和基频的正交多项式的系数表示差分韵律向量;对于差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和这些属性的组合生成初始参数预测模型,其中每个属性或上述属性的组合被作为一项;计算参数预测模型的每一项的重要性;删除所计算的重要性最低的项;利用剩余的项重新生成参数预测模型;判断重新生成的参数预测模型是否最优;如果参数预测模型不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤;其中差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
-
公开(公告)号:CN1963918A
公开(公告)日:2007-05-16
申请号:CN200510115300.5
申请日:2005-11-11
Applicant: 株式会社东芝
IPC: G10L17/00
CPC classification number: G10L17/04
Abstract: 本发明提供了说话人模板的压缩方法和装置、将多个说话人模板合并的方法和装置、说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。该说话人模板包含多个特征向量。本发明的说话人模板的压缩方法包括:根据一个码本,为说话人模板中的每个上述特征向量指定一个码字,其中上述码本包含多个码字以及每个码字对应的特征向量;以及将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。
-
公开(公告)号:CN107195299A
公开(公告)日:2017-09-22
申请号:CN201610142994.X
申请日:2016-03-14
Applicant: 株式会社东芝
IPC: G10L15/16
Abstract: 本发明提供训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
-
公开(公告)号:CN106486115A
公开(公告)日:2017-03-08
申请号:CN201510543232.6
申请日:2015-08-28
Applicant: 株式会社东芝
Abstract: 本发明提供改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的改进语音识别系统的神经网络语言模型的装置,包括:词分类单元,其对上述语音识别系统的词典中的词进行分类;语言模型训练单元,其基于分类的结果训练基于类的语言模型;和向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
-
公开(公告)号:CN101154383B
公开(公告)日:2010-10-06
申请号:CN200610141240.9
申请日:2006-09-29
Applicant: 株式会社东芝
Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
公开(公告)号:CN101154383A
公开(公告)日:2008-04-02
申请号:CN200610141240.9
申请日:2006-09-29
Applicant: 株式会社东芝
Abstract: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
公开(公告)号:CN101051463A
公开(公告)日:2007-10-10
申请号:CN200610073142.6
申请日:2006-04-06
Applicant: 株式会社东芝
Abstract: 本发明提供了说话人认证的验证方法和装置以及说话人认证系统。本发明的说话人认证的验证方法包括:输入说话人说出的包含密码的语音;从上述输入的语音提取声学特征向量序列;对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配;计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离;对上述计算所得的各个节点距离进行非线性变换,以使对较小的节点距离给予较大的权重;根据上述非线性变换后的各个节点距离,计算DTW匹配得分;以及比较上述匹配得分和预先定义的分辨阈值,以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。
-
公开(公告)号:CN1841496A
公开(公告)日:2006-10-04
申请号:CN200510059832.1
申请日:2005-03-31
Applicant: 株式会社东芝
IPC: G10L11/00
Abstract: 本发明提供了测量语速的方法、测量语速的装置和录音设备。本发明的测量语速的方法,包括:输入记录有语音的语音信息;从上述语音信息中识别音素序列和每个音素对应的时间分割点;根据上述识别出的音素序列和每个音素对应的时间分割点,识别字序列和每个字对应的时间分割点;以及根据上述识别出的字序列和每个字相应的时间分割点,计算上述语音的语速。采用本实施例的测量语速的方法,可以自动地测量出一段语音的语速,而不需要在录音后期由人工测量语速。
-
公开(公告)号:CN101165679A
公开(公告)日:2008-04-23
申请号:CN200610135658.9
申请日:2006-10-20
Abstract: 本发明提供一种模式匹配装置以及方法,其中模式匹配装置针对构成标准模式的各特征要素,通过将与邻接的特征要素近似的特征要素合并成一个特征要素,来压缩标准模式。另外,生成压缩后的压缩标准模式B′x的每个特征要素的压缩比的序列作为压缩信息Nx。然后,将压缩后的压缩标准模式B′x与针对该压缩标准模式B′x生成的压缩信息Nx相关联地存储,模式匹配处理单元(15)在输入了输入模式A后,由复原单元(21)根据与该压缩标准模式B′x相关联的压缩信息Nx,把压缩标准模式B′x伸长,将其复原成标准模式。然后,距离计算单元(23)利用动态规划法计算复原后的标准模式与输入模式A的模式间距离。
-
公开(公告)号:CN101089952A
公开(公告)日:2007-12-19
申请号:CN200610092246.1
申请日:2006-06-15
Applicant: 株式会社东芝
CPC classification number: G10L15/20 , G10L15/02 , G10L21/0208
Abstract: 本发明提供了噪声抑制方法,平滑语音谱的方法,提取语音特征的方法,语音识别方法及训练语音模型的方法和装置。本发明的噪声抑制方法通过最小均方误差估计进行,其中采用分段线性函数来近似合流超几何函数,从而能够极大的减少计算量,同时保持抑制噪声性能。此外,本发明为了避免产生能量极低的语音谱成分,在最小均方误差估计之后利用几何数列权重对语音谱在时间轴和频率轴进行平滑。此外,本发明通过调整先验SNR来控制噪声抑制和语音失真之间的平衡。
-
-
-
-
-
-
-
-
-