一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950B

    公开(公告)日:2021-10-01

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于二次建模的说话人识别方法

    公开(公告)号:CN106898355A

    公开(公告)日:2017-06-27

    申请号:CN201710031899.7

    申请日:2017-01-17

    Applicant: 清华大学

    Abstract: 本发明提出一种基于二次建模的说话人识别方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,获取待识别说话人的训练语音数据并预处理;根据训练语音数据训练得到第一个DNN模型;利用第一个DNN模型,对训练语音数据进行识别,提取易混语音数据;根据易混语音数据训练得到第二个DNN模型;在说话人识别阶段,获取待识别语音数据并预处理;利用第一个DNN模型对待识别语音数据进行识别,若识别概率大于设定阈值,则得到说话人识别结果;否则通过第二个DNN模型对待识别语音数据进行第二次识别,得到说话人识别结果。本发明通过建立两个DNN模型,同时考虑说话人宏观特征和微观特征,有效提高说话人识别的准确率。

    基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

    公开(公告)号:CN106971713A

    公开(公告)日:2017-07-21

    申请号:CN201710035673.4

    申请日:2017-01-18

    Applicant: 清华大学

    Abstract: 本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统,属于声纹识别和模式识别领域。本发明方法首先建立训练语音数据库,得到通用背景模型和子空间模型;然后通过i‑vector因子提取方法得到待测语音数据的每一段的i‑vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,得出说话人标记结果。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性,说话人标记性能极易受初始值影响而产生较大偏差等问题;增强了说话人标记的准确率、稳定性和灵活性。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950A

    公开(公告)日:2018-10-23

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    CPC classification number: G10L17/04 G10L17/02 G10L25/24

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

    公开(公告)号:CN107248414A

    公开(公告)日:2017-10-13

    申请号:CN201710366412.0

    申请日:2017-05-23

    Applicant: 清华大学

    CPC classification number: G10L21/0216 G10L21/0232 G10L25/18 G10L25/27

    Abstract: 本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,属于语音增强和非负矩阵分解领域。该方法对纯净语音、噪声、带噪语音预处理,得到短时频谱,并转换为多帧频谱;将噪声和纯净语音的多帧频谱分别转化为对应的基矩阵和系数矩阵的乘积,求出噪声的多帧频谱的基矩阵和纯净语音多帧频谱的基矩阵;将两个基矩阵合成带噪语音多帧频谱的基矩阵,并将带噪语音的多帧频谱转化为基矩阵和系数矩阵的乘积,获得带噪语音多帧频谱的系数矩阵,进而得到噪声的和增强语音的多帧频谱的初始估计;通过维纳滤波方法,获得增强语音的多帧频谱,变换为时域信号,获得最终增强语音。本发明保存了语音的特有信息,更好地还原语音,提升语音增强的效果。

    一种鉴别式局部信息距离保持映射的说话人确认方法

    公开(公告)号:CN107633845A

    公开(公告)日:2018-01-26

    申请号:CN201710812259.X

    申请日:2017-09-11

    Applicant: 清华大学

    Abstract: 本发明提出一种鉴别式局部信息距离保持映射的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在训练阶段获取训练语音数据并提取每条训练语音数据的i-vector;根据每个说话人对应的训练语音数据,提取每个说话人的i-vector;训练得到鉴别式局部保持映射矩阵;在说话人确认阶段,获取待测语音数据并选定一个训练语音数据的说话人,计算待测语音数据与该说话人的i-vector距离,若该距离小于设定的距离阈值,则判断待测语音数据属于说话人;说话人确认完成。本发明适用性强,且着重考虑了异类近邻点,增强对易混说话人语音的鉴别,具有更好的区分能力,提高说话人确认的准确率。

    一种说话人标记方法
    7.
    发明公开

    公开(公告)号:CN107452403A

    公开(公告)日:2017-12-08

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i-vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    一种说话人标记方法
    8.
    发明授权

    公开(公告)号:CN107452403B

    公开(公告)日:2020-07-07

    申请号:CN201710817534.7

    申请日:2017-09-12

    Applicant: 清华大学

    Abstract: 本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

    基于DNN模型和支持向量机模型的说话人个数估计方法

    公开(公告)号:CN106898354A

    公开(公告)日:2017-06-27

    申请号:CN201710123753.5

    申请日:2017-03-03

    Applicant: 清华大学

    Abstract: 本发明提出基于DNN模型和支持向量机模型的说话人个数估计方法,属于语音信号处理和深度学习领域。模型训练阶段,首先获取N个说话人的训练语音数据,得到深度神经网络DNN模型;然后获取M个说话人的训练语音数据,每个说话人的梅尔倒谱特征对应DNN模型的N个输出概率,组成M个说话人的N维特征,建立M个支持向量机SVM模型;说话人个数估计阶段,将每条待测语音数据的梅尔倒谱特征输入DNN模型得到N维特征并依次输入M个SVM模型中评分,得分最高的SVM模型即为该条待测语音数据所对应的类别,类别总个数即为估计的说话人个数。该方法解决多说话人场景中说话人个数计算不准确的问题,提高语音数据中说话人个数估计的准确率。

Patent Agency Ranking