一种基于音视频信息的自动音乐记谱方法及系统

    公开(公告)号:CN103377647A

    公开(公告)日:2013-10-30

    申请号:CN201210122443.9

    申请日:2012-04-24

    Abstract: 本发明涉及一种基于音视频信息的自动音乐记谱方法及系统,所述方法包含:采集钢琴演奏的视频和音频数据;依据采集的视频信息用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息;将同步后的视频音符备选范围序列集和音频音符备选范围序列集取交集确定演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息。

    一种基于概率线性鉴别分析模型的说话人聚类方法及系统

    公开(公告)号:CN105469784B

    公开(公告)日:2019-01-08

    申请号:CN201410459009.9

    申请日:2014-09-10

    Abstract: 本发明涉及一种基于概率线性鉴别分析模型的说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。

    一种用于语种识别的语种模型的训练方法及系统

    公开(公告)号:CN103065622B

    公开(公告)日:2015-10-07

    申请号:CN201210560716.8

    申请日:2012-12-20

    Abstract: 本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。

    一种基于共有鉴别性子空间映射的语种识别方法及装置

    公开(公告)号:CN103077709B

    公开(公告)日:2015-09-09

    申请号:CN201210587263.8

    申请日:2012-12-28

    Abstract: 本发明涉及一种基于共有鉴别性子空间映射的语种识别方法及装置,该方法包括:提取一个语种的多个语音数据的语音特征;根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。相比于直接对高斯超向量进行建模,本发明的语种识别方法由于其低维和鉴别性,训练速度更快,识别性能有了明显提高。

    一种说话人识别方法及系统

    公开(公告)号:CN103077720A

    公开(公告)日:2013-05-01

    申请号:CN201210555152.9

    申请日:2012-12-19

    Abstract: 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。

    一种用于语种识别的语种模型的训练方法及系统

    公开(公告)号:CN103065622A

    公开(公告)日:2013-04-24

    申请号:CN201210560716.8

    申请日:2012-12-20

    Abstract: 本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。

    一种随机数字口令相关的说话人识别方法及装置

    公开(公告)号:CN110047491A

    公开(公告)日:2019-07-23

    申请号:CN201810039718.X

    申请日:2018-01-16

    Abstract: 本发明涉及随机数字口令相关的说话人识别方法及装置,该方法包括,获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将注册说话人模型中对应数字的总变化因子向量与测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对打分进行加权求和,获得判决分数,识别测试说话人的语音是否为注册说话人的语音。本发明对注册和测试中对应数字的语音片段进行匹配打分,可在随机数字口令长度较短如5个随机数字的情况下,仍有很高的识别性能,与常用的高斯混合模型通用背景模型打分方法对比,本发明提出的随机数字口令的说话人识别方法的性能有相对25%-30%的提升。

    一种敲击弦乐器的音乐多音符估计方法及系统

    公开(公告)号:CN105304073B

    公开(公告)日:2019-03-12

    申请号:CN201410325609.6

    申请日:2014-07-09

    Abstract: 本发明涉及一种基于非负矩阵分解的敲击弦乐器的音乐多音符估计方法,该方法利用敲击弦乐器的单音音频数据构建音符能量谱包络基矩阵,通过对多音能量谱包络的非负矩阵分解,求得各音符在多音片段中的能量权重系数,最后对音符权重大小进行阈值限定求得多音片段中的多音符分布。与传统方法比较,基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息,同时结合了能量谱包络的线性叠加性来分解能量谱,符合局部构建整体的音符叠加机理,多音符估计性能得到明显提升,同时系统速度也有一定提升,具有很高的实用性。

    一种语种识别模型的训练方法及语种识别方法

    公开(公告)号:CN105280181A

    公开(公告)日:2016-01-27

    申请号:CN201410336650.3

    申请日:2014-07-15

    Abstract: 本发明涉及一种语种识别模型的训练方法及语种识别方法,包括:提取训练语音数据的音素后验概率,将音素后验概率转换到对数域,进行降维和均值方差规整得到音素相关特征;利用音素相关特征计算Baum-Welch统计量,利用Baum-Welch统计量提取音素变化量因子;对音素变化量因子进行建模,建立SVM模型(语种识别模型);将待识别语音数据的音素变化量因子对SVM模型进行打分,对得分进行均值方差规整,并对规整后的得分使用线性鉴别性分析和高斯后端规整进行得分校正,得到最终识别结果。该方法与传统的语种识别方法相比,降低了计算复杂度,语种识别性能得到明显提升,具有很高的实用性。

Patent Agency Ranking