用于语种识别的约束异方差线性鉴别分析方法

    公开(公告)号:CN101546555B

    公开(公告)日:2011-05-11

    申请号:CN200910081899.3

    申请日:2009-04-14

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 用于语种识别的约束异方差线性鉴别分析方法涉及一种高维特征矢量的降维和去相关处理方法,其特征在于,所述方法首先由语音信号提取MFCC特征,选取连续M帧MFCC特征并列放置得到倒谱矩阵,然后将其按行展开,形成超矢量,再分块计算超矢量的均值和协方差,并用迭代法分块计算变换矩阵,接着用变换矩阵对超矢量分块进行变换,最后将各块进行降维和拼接处理,可得到新的特征矢量。该方法计算量小,得到的特征矢量去除了各维之间的相关性,鉴别性高且维数低。可以用于语种识别。

    基于语音识别的信息校核方法

    公开(公告)号:CN1293428A

    公开(公告)日:2001-05-02

    申请号:CN00130298.1

    申请日:2000-11-10

    Applicant: 清华大学

    Abstract: 本发明属于语音技术领域,包括:非特定人语音识别模型的预先训练、语音信号的端点检测、语音识别参数提取、基于多子树三元词对文法的帧同步束搜索Viterbi语音识别方法、语音识别置信测度与拒识模型、非特定人语音识别模型的说话人自适应学习、语音提示。本发明的基于语音识别的信息校核方法具有识别率高、稳健性好等特点。构成的语音识别系统可以用于信息查询、语音命令识别、学习机,以及生产环节的控制系统中。

    语种识别系统
    23.
    发明授权

    公开(公告)号:CN108648747B

    公开(公告)日:2020-06-02

    申请号:CN201810234745.2

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,语种识别模块用于获取输入的待测的语音段,在训练库中匹配联合支持矢量,得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950A

    公开(公告)日:2018-10-23

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    CPC classification number: G10L17/04 G10L17/02 G10L25/24

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    语种识别系统
    25.
    发明公开

    公开(公告)号:CN108648747A

    公开(公告)日:2018-10-12

    申请号:CN201810234745.2

    申请日:2018-03-21

    Applicant: 清华大学

    Abstract: 本发明提供了一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,语种识别模块用于获取输入的待测的语音段,在训练库中匹配联合支持矢量,得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。

    韵律事件检测方法和装置
    26.
    发明授权

    公开(公告)号:CN104575518B

    公开(公告)日:2018-10-02

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

    公开(公告)号:CN107248414A

    公开(公告)日:2017-10-13

    申请号:CN201710366412.0

    申请日:2017-05-23

    Applicant: 清华大学

    CPC classification number: G10L21/0216 G10L21/0232 G10L25/18 G10L25/27

    Abstract: 本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,属于语音增强和非负矩阵分解领域。该方法对纯净语音、噪声、带噪语音预处理,得到短时频谱,并转换为多帧频谱;将噪声和纯净语音的多帧频谱分别转化为对应的基矩阵和系数矩阵的乘积,求出噪声的多帧频谱的基矩阵和纯净语音多帧频谱的基矩阵;将两个基矩阵合成带噪语音多帧频谱的基矩阵,并将带噪语音的多帧频谱转化为基矩阵和系数矩阵的乘积,获得带噪语音多帧频谱的系数矩阵,进而得到噪声的和增强语音的多帧频谱的初始估计;通过维纳滤波方法,获得增强语音的多帧频谱,变换为时域信号,获得最终增强语音。本发明保存了语音的特有信息,更好地还原语音,提升语音增强的效果。

    一种基于数字口令与声纹联合确认的用户身份验证方法

    公开(公告)号:CN107104803A

    公开(公告)日:2017-08-29

    申请号:CN201710208226.4

    申请日:2017-03-31

    Applicant: 清华大学

    Abstract: 本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法,属于身份验证技术领域。该方法包括初始化阶段:获取初始化训练音频并建立文本相关的通用背景模型;注册阶段:记录用户注册信息并建立文本相关的用户模型;验证阶段:用户按照服务器指定的顺序录制用户验证音频,根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,得到声纹验证分数和文本验证分数;将两个验证分数加权求和得到最终验证分数,当最终验证分数超过设定阈值时,验证通过。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。

    一种基于参数融合优化决策的音频索引方法

    公开(公告)号:CN103985381B

    公开(公告)日:2016-09-21

    申请号:CN201410209057.2

    申请日:2014-05-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加 孙甲松

    Abstract: 本发明为一种针对真实场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后分别进行基于高斯混合模型的优化学习及量子学习,将高斯混合模型参数与量子学习参数进行融合,最后基于分类决策给出分类结果,本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态,并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    基于噪声屏蔽核的说话人识别方法

    公开(公告)号:CN103714818B

    公开(公告)日:2016-06-22

    申请号:CN201310681894.0

    申请日:2013-12-12

    Applicant: 清华大学

    Inventor: 张卫强 刘加

    Abstract: 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。

Patent Agency Ranking