-
公开(公告)号:CN1521727A
公开(公告)日:2004-08-18
申请号:CN03102205.7
申请日:2003-01-27
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种基于高斯相似度分析的说话人自适应方法,包括一个自适应前建立非特定人模型状态协方差矩阵的二叉决策树的步骤;一个建立计算二叉决策树每个中间节点的类中心协方差矩阵及其与对应的各叶子节点协方差矩阵间的变换关系阵的步骤;一个自适应时根据测试者提供的自适应数据决定自适应状态类的步骤;一个对每个自适应状态类用最大似然方法估计类中心矩阵的步骤;一个对每个自适应状态类计算自适应后的类中心协方差矩阵的步骤;一个更新每个自适应状态类的协方差矩阵,得到说话人自适应模型的步骤。本发明能够利用少量数据对协方差自适应,而且可以与均值自适应方法同时使用,自适应效果显著。
-
-
-
公开(公告)号:CN1221938C
公开(公告)日:2005-10-05
申请号:CN03102205.7
申请日:2003-01-27
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种基于高斯相似度分析的说话人自适应方法,包括一个自适应前建立非特定人模型状态协方差矩阵的二叉决策树的步骤;一个建立计算二叉决策树每个中间节点的类中心协方差矩阵及其与对应的各叶子节点协方差矩阵间的变换关系阵的步骤;一个自适应时根据测试者提供的自适应数据决定自适应状态类的步骤;一个对每个自适应状态类用最大似然方法估计类中心矩阵的步骤;一个对每个自适应状态类计算自适应后的类中心协方差矩阵的步骤;一个更新每个自适应状态类的协方差矩阵,得到说话人自适应模型的步骤。本发明能够利用少量数据对协方差自适应,而且可以与均值自适应方法同时使用,自适应效果显著。
-
公开(公告)号:CN1221937C
公开(公告)日:2005-10-05
申请号:CN02159406.6
申请日:2002-12-31
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种可以在线的、不需要预先获得语速的测度、同时增加的计算量很小的语速自适应的语音识别系统,包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块,训练模块训练的模型参数包括前后两个语音单元相连的情况下的段长均值、方差和前后两个语音单元段长的相关系数;声学层识别模块计算的段长概率,是指给定前一个音节的段长的条件下,计算当前音节段长的条件概率,并且在计算段长概率时,可以通过段长概率动态加权模块和汉语慢速语音调整模块对段长概率根据语速进行动态、实时调整,以提高系统性能,降低系统的插入错误和删除错误。
-
公开(公告)号:CN1521728A
公开(公告)日:2004-08-18
申请号:CN03102206.5
申请日:2003-01-27
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种语音识别系统中的说话人自适应方法,称为最大高斯相似度协方差矩阵线性插值方法,能够克服基于高斯相似度的二叉决策树方法中在自适应数据极少的情况下的缺点。本发明主要步骤是:自适应前,首先与基于高斯相似度分析的二叉决策树自适应方法一样,根据非特定人模型建立起协方差矩阵二叉决策树;然后,按照该决策树计算在各特定人模型下中间节点对应的类中心矩阵。自适应时,先由测试者提供的数据量决定,在哪些中间节点上进行插值自适应,接着根据每一待插值的中间节点对应的自适应数据,计算插值系数,最后计算自适应后的类中心矩阵,更新协方差矩阵,得到自适应模型。
-
公开(公告)号:CN1221939C
公开(公告)日:2005-10-05
申请号:CN03102206.5
申请日:2003-01-27
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种语音识别系统中的说话人自适应方法,称为最大高斯相似度协方差矩阵线性插值方法,能够克服基于高斯相似度的二叉决策树方法中在自适应数据极少的情况下的缺点。本发明主要步骤是:自适应前,首先与基于高斯相似度分析的二叉决策树自适应方法一样,根据非特定人模型建立起协方差矩阵二叉决策树;然后,按照该决策树计算在各特定人模型下中间节点对应的类中心矩阵。自适应时,先由测试者提供的数据量决定,在哪些中间节点上进行插值自适应,接着根据每一待插值的中间节点对应的自适应数据,计算插值系数,最后计算自适应后的类中心矩阵,更新协方差矩阵,得到自适应模型。
-
公开(公告)号:CN1512485A
公开(公告)日:2004-07-14
申请号:CN02159406.6
申请日:2002-12-31
Applicant: 北京天朗语音科技有限公司 , 清华大学
Abstract: 本发明提供了一种可以在线的、不需要预先获得语速的测度、同时增加的计算量很小的语速自适应的语音识别系统,包括语音采集装置、前端处理模块、特征提取模块、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块,训练模块训练的模型参数包括前后两个语音单元相连的情况下的段长均值、方差和前后两个语音单元段长的相关系数;声学层识别模块计算的段长概率,是指给定前一个音节的段长的条件下,计算当前音节段长的条件概率,并且在计算段长概率时,可以通过段长概率动态加权模块和汉语慢速语音调整模块对段长概率根据语速进行动态、实时调整,以提高系统性能,降低系统的插入错误和删除错误。
-
-
-
-
-
-
-
-