一种采用总变化量因子的语种识别方法及系统

    公开(公告)号:CN104575495A

    公开(公告)日:2015-04-29

    申请号:CN201310495417.5

    申请日:2013-10-21

    Abstract: 本发明提出了一种基于总变化量因子的语种识别方法及系统,所述方法包含:步骤101)提取某语种若干段训练语音的声学特征,并依据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,其中每一句话的总变化量因子是一个矢量;步骤102)利用支持向量机训练一组一对一和一对多模型,然后选择若干个总变量因子对所述一对一和一对多模型打分,依据得分矩阵训练一个高斯后端分类器模型;步骤103)输入测试语音,并提取测试语音的声学特征,然后根据全局背景模型和总变化量因子空间模型将提取的声学特征映射为总变化量因子,再对102)中的一对多和一对一模型打分,最后将得分向量输入所述的高斯后端分类器模型进行判决并输出识别结果。

    一种说话人识别方法及系统

    公开(公告)号:CN103077720B

    公开(公告)日:2015-02-11

    申请号:CN201210555152.9

    申请日:2012-12-19

    Abstract: 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。

    一种基于降噪自动编码器的语种识别分类方法及装置

    公开(公告)号:CN110858477B

    公开(公告)日:2022-05-03

    申请号:CN201810916756.9

    申请日:2018-08-13

    Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

    一种基于字相关得分计算的说话人识别方法

    公开(公告)号:CN110875044A

    公开(公告)日:2020-03-10

    申请号:CN201811002308.4

    申请日:2018-08-30

    Abstract: 本发明公开了一种基于字相关得分计算的说话人识别方法,所述方法包括:步骤1)建立训练样本集,提取训练样本集中每个语音的特征向量,组成特征集合,利用该特征集合训练得到通用背景模型UBM;步骤2)基于DTW切分算法,将注册语音和测试语音分别切分为单独中文字的片段,利用通用背景模型UBM得到注册语音的每个字的GMM模型,由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度,加权求和后得到判决分数S;步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较:当S超过设定的阈值时,验证通过;否则,验证失败。本发明的方法能使说话人识别系统在密码口令长度较短的情况下,仍有很高的识别性能。

    一种说话人识别方法
    26.
    发明授权

    公开(公告)号:CN105261367B

    公开(公告)日:2019-03-15

    申请号:CN201410334124.3

    申请日:2014-07-14

    Abstract: 本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型,局部线性鉴别分析模型;利用第一高斯混合‑通用背景模型,总变化空间,第二高斯混合‑通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。

    一种基于音视频信息的自动音乐记谱方法及系统

    公开(公告)号:CN103377647B

    公开(公告)日:2015-10-07

    申请号:CN201210122443.9

    申请日:2012-04-24

    Abstract: 本发明涉及一种基于音视频信息的自动音乐记谱方法及系统,所述方法包含:采集钢琴演奏的视频和音频数据;依据采集的视频信息用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息;将同步后的视频音符备选范围序列集和音频音符备选范围序列集取交集确定演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息。

    一种基于字相关得分计算的说话人识别方法

    公开(公告)号:CN110875044B

    公开(公告)日:2022-05-03

    申请号:CN201811002308.4

    申请日:2018-08-30

    Abstract: 本发明公开了一种基于字相关得分计算的说话人识别方法,所述方法包括:步骤1)建立训练样本集,提取训练样本集中每个语音的特征向量,组成特征集合,利用该特征集合训练得到通用背景模型UBM;步骤2)基于DTW切分算法,将注册语音和测试语音分别切分为单独中文字的片段,利用通用背景模型UBM得到注册语音的每个字的GMM模型,由此计算注册语音和测试语音中相同中文字的语音谱特征片段的相似度,加权求和后得到判决分数S;步骤3)将步骤2)得到的判决分数S与设定的阈值进行比较:当S超过设定的阈值时,验证通过;否则,验证失败。本发明的方法能使说话人识别系统在密码口令长度较短的情况下,仍有很高的识别性能。

    一种基于降噪自动编码器的语种识别分类方法及装置

    公开(公告)号:CN110858477A

    公开(公告)日:2020-03-03

    申请号:CN201810916756.9

    申请日:2018-08-13

    Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i-vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i-vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i-vector补偿网络,获得补偿后的i-vector;步骤5)分别将步骤2)获得的原始i-vector和步骤4)获得的补偿后的i-vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

    一种语种识别模型的训练方法及语种识别方法

    公开(公告)号:CN105280181B

    公开(公告)日:2018-11-13

    申请号:CN201410336650.3

    申请日:2014-07-15

    Abstract: 本发明涉及一种语种识别模型的训练方法及语种识别方法,包括:提取训练语音数据的音素后验概率,将音素后验概率转换到对数域,进行降维和均值方差规整得到音素相关特征;利用音素相关特征计算Baum‑Welch统计量,利用Baum‑Welch统计量提取音素变化量因子;对音素变化量因子进行建模,建立SVM模型(语种识别模型);将待识别语音数据的音素变化量因子对SVM模型进行打分,对得分进行均值方差规整,并对规整后的得分使用线性鉴别性分析和高斯后端规整进行得分校正,得到最终识别结果。该方法与传统的语种识别方法相比,降低了计算复杂度,语种识别性能得到明显提升,具有很高的实用性。

Patent Agency Ranking