基于噪声屏蔽核的说话人识别方法

    公开(公告)号:CN103714818A

    公开(公告)日:2014-04-09

    申请号:CN201310681894.0

    申请日:2013-12-12

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。

    基于分数阶傅里叶变换的语音非语音检测方法

    公开(公告)号:CN103578466A

    公开(公告)日:2014-02-12

    申请号:CN201310557124.5

    申请日:2013-11-11

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。

    语音帧等级的获取方法及装置

    公开(公告)号:CN102376306B

    公开(公告)日:2013-01-23

    申请号:CN201010248757.4

    申请日:2010-08-04

    Abstract: 本发明实施例提供一种语音帧等级的获取方法及装置,根据语音帧的编码参数,解码生成丢帧情况下和未丢帧情况下的两组解码语音信号,基于上述两组解码语音信号进行特征参数的提取,根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型,获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级,也就可以得到语音帧的等级。进一步地,在得到语音帧的等级后,可以对上述语音帧采取相应的保护策略,进一步能够实现对语音帧进行有效保护,从而可以有效保护语音信号中的重要信息,能够有效减少语音帧的丢帧现象的发生,提高接收端的解码语音质量。

    计算机辅助语言学习系统中的发音质量评价方法

    公开(公告)号:CN101246685B

    公开(公告)日:2011-03-30

    申请号:CN200810102076.X

    申请日:2008-03-17

    Applicant: 清华大学

    Inventor: 刘加

    Abstract: 本发明属于语音技术领域,计算机辅助语言学习系统中的发音质量评价方法,包括:匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算,并将上述分数映射后进行融合;本发明的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于交互式语言学习和自动口语测试。

    用于说话人识别的多背景模型建立方法

    公开(公告)号:CN101833951A

    公开(公告)日:2010-09-15

    申请号:CN201010118149.1

    申请日:2010-03-04

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

    嵌入式系统的汉英双语语音识别方法

    公开(公告)号:CN101727901A

    公开(公告)日:2010-06-09

    申请号:CN200910242406.X

    申请日:2009-12-10

    Applicant: 清华大学

    Inventor: 刘加 钱彦旻

    Abstract: 本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别系统只能识别单语言的缺陷。

    基于语音识别专用芯片的非特定人语音识别、语音提示方法

    公开(公告)号:CN1141696C

    公开(公告)日:2004-03-10

    申请号:CN00105548.8

    申请日:2000-03-31

    Applicant: 清华大学

    Abstract: 本发明属于语音技术领域,涉及基于语音识别专用芯片的非特定人语音识别、语音提示方法。包括:非特定人语音识别的预先训练、语音识别参数提取、非特定人语音命令的识别、非特定人语音识别的说话人自适应学习、语音提示。本识别方法具有方法简单、识别率高、稳健性好等特点。构成的系统可以用于玩具控制、声控拨号、智能性家用电器、学习机、以及生产环节的控制系统中。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950B

    公开(公告)日:2021-10-01

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于二次建模的说话人识别方法

    公开(公告)号:CN106898355A

    公开(公告)日:2017-06-27

    申请号:CN201710031899.7

    申请日:2017-01-17

    Applicant: 清华大学

    Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

    基于稀疏降维的说话人识别方法

    公开(公告)号:CN103413551B

    公开(公告)日:2015-11-18

    申请号:CN201310298757.9

    申请日:2013-07-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

Patent Agency Ranking