-
公开(公告)号:CN103714818A
公开(公告)日:2014-04-09
申请号:CN201310681894.0
申请日:2013-12-12
Applicant: 清华大学
IPC: G10L17/20
Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
-
公开(公告)号:CN103578466A
公开(公告)日:2014-02-12
申请号:CN201310557124.5
申请日:2013-11-11
Applicant: 清华大学
IPC: G10L15/04
Abstract: 本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。
-
公开(公告)号:CN102376306B
公开(公告)日:2013-01-23
申请号:CN201010248757.4
申请日:2010-08-04
Abstract: 本发明实施例提供一种语音帧等级的获取方法及装置,根据语音帧的编码参数,解码生成丢帧情况下和未丢帧情况下的两组解码语音信号,基于上述两组解码语音信号进行特征参数的提取,根据上述特征参数矢量、预设准则和为语音帧细分等级上的语音帧的特征参数矢量预先建立的数学模型,获取与上述两组解码语音信号的特征参数的特征参数矢量对应的语音帧细分等级,也就可以得到语音帧的等级。进一步地,在得到语音帧的等级后,可以对上述语音帧采取相应的保护策略,进一步能够实现对语音帧进行有效保护,从而可以有效保护语音信号中的重要信息,能够有效减少语音帧的丢帧现象的发生,提高接收端的解码语音质量。
-
-
公开(公告)号:CN101833951A
公开(公告)日:2010-09-15
申请号:CN201010118149.1
申请日:2010-03-04
Applicant: 清华大学
Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。
-
公开(公告)号:CN101727901A
公开(公告)日:2010-06-09
申请号:CN200910242406.X
申请日:2009-12-10
Applicant: 清华大学
Abstract: 本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别系统只能识别单语言的缺陷。
-
-
公开(公告)号:CN108694950B
公开(公告)日:2021-10-01
申请号:CN201810465602.2
申请日:2018-05-16
Applicant: 清华大学
Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。
-
公开(公告)号:CN106898355A
公开(公告)日:2017-06-27
申请号:CN201710031899.7
申请日:2017-01-17
Applicant: 清华大学
Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。
-
公开(公告)号:CN103413551B
公开(公告)日:2015-11-18
申请号:CN201310298757.9
申请日:2013-07-16
Applicant: 清华大学
Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。
-
-
-
-
-
-
-
-
-