一种鉴别式局部信息距离保持映射的说话人确认方法

    公开(公告)号:CN107633845A

    公开(公告)日:2018-01-26

    申请号:CN201710812259.X

    申请日:2017-09-11

    Applicant: 清华大学

    Abstract: 本发明提出一种鉴别式局部信息距离保持映射的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在训练阶段获取训练语音数据并提取每条训练语音数据的i-vector;根据每个说话人对应的训练语音数据,提取每个说话人的i-vector;训练得到鉴别式局部保持映射矩阵;在说话人确认阶段,获取待测语音数据并选定一个训练语音数据的说话人,计算待测语音数据与该说话人的i-vector距离,若该距离小于设定的距离阈值,则判断待测语音数据属于说话人;说话人确认完成。本发明适用性强,且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。

    一种说话人标记方法
    2.
    发明公开

    公开(公告)号:CN107452403A

    公开(公告)日:2017-12-08

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i-vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950B

    公开(公告)日:2021-10-01

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于二次建模的说话人识别方法

    公开(公告)号:CN106898355A

    公开(公告)日:2017-06-27

    申请号:CN201710031899.7

    申请日:2017-01-17

    Applicant: 清华大学

    Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950A

    公开(公告)日:2018-10-23

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    CPC classification number: G10L17/04 G10L17/02 G10L25/24

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于数字口令与声纹联合确认的用户身份验证方法

    公开(公告)号:CN107104803A

    公开(公告)日:2017-08-29

    申请号:CN201710208226.4

    申请日:2017-03-31

    Applicant: 清华大学

    Abstract: 本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法,属于身份验证技术领域。该方法包括初始化阶段:获取初始化训练音频并建立文本相关的通用背景模型;注册阶段:记录用户注册信息并建立文本相关的用户模型;验证阶段:用户按照服务器指定的顺序录制用户验证音频,根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,得到声纹验证分数和文本验证分数;将两个验证分数加权求和得到最终验证分数,当最终验证分数超过设定阈值时,验证通过。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。

    一种说话人标记方法
    7.
    发明授权

    公开(公告)号:CN107452403B

    公开(公告)日:2020-07-07

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    基于DNN模型和支持向量机模型的说话人个数估计方法

    公开(公告)号:CN106898354A

    公开(公告)日:2017-06-27

    申请号:CN201710123753.5

    申请日:2017-03-03

    Applicant: 清华大学

    Abstract: 本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法,属于语音信号处理和深度学习领域。模型训练阶段,首先获取N个说话人的训练语音数据,得到深度神经网络DNN模型;然后获取M个说话人的训练语音数据,每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率,组成M个说话人的N维特征,建立M个支持向量机SVM模型;说话人个数估计阶段,将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分,得分最高的SVM模型即为该条待测语音数据所对应的类别,类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题,提高语音数据中说话人个数估计的准确率。

Patent Agency Ranking