-
公开(公告)号:CN103198833B
公开(公告)日:2015-10-21
申请号:CN201310075089.3
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于文本无关说话人确认方法。本发明提出了Turbo-Boost分类算法与2D-Haar音频特征的相结合的说话人确认方法,首先使用基础音频特征构成音频特征图;进而利用音频特征图提取2D-Haar音频特征,再使用Turbo-Boost算法,通过两轮迭代运算分别完成对2D-Haar音频特征的筛选和说话人分类器的训练;最终使用训练好的说话人分类器实现说话人确认。与现有技术相比,本发明可以在同样的运算消耗下获得更高的准确率,特别适合对于运算速度和说话人确认精度有着严格要求的说话人确认场合,例如电话自动接听系统、计算机身份认证系统、高密级门禁系统等。
-
公开(公告)号:CN102799899A
公开(公告)日:2012-11-28
申请号:CN201210226349.8
申请日:2012-06-29
Applicant: 北京理工大学
IPC: G06K9/62
Abstract: 本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件,然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题,可应用于特定音频检索和基于内容的网络音频监管。
-
公开(公告)号:CN103177722B
公开(公告)日:2016-04-20
申请号:CN201310074868.1
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于音色相似度的歌曲检索方法,针对基于内容的音乐检索技术,综合利用歌曲背景音乐音色、歌唱者声音特点等特征,提出了一种基于MFCC和GMM的歌曲个性建模、计算和检索匹配的方法并加以实现,实验结果表明,该系统的检索速度快,系统稳定性高、可扩展性强。本发明特别适合对于音色要求较高的音频检索场合,例如器乐音频检索系统、多媒体音频管理系统等。
-
-
公开(公告)号:CN102799899B
公开(公告)日:2014-12-10
申请号:CN201210226349.8
申请日:2012-06-29
Applicant: 北京理工大学
IPC: G06K9/62
Abstract: 本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件,然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题,可应用于特定音频检索和基于内容的网络音频监管。
-
公开(公告)号:CN103258536A
公开(公告)日:2013-08-21
申请号:CN201310074743.9
申请日:2013-03-08
Applicant: 北京理工大学
IPC: G10L17/02
Abstract: 本发明涉及一种基于2D-Haar音频特征的、适用于大规模说话者的文本无关说话人辨认方法。本发明提出了2D-Haar音频特征的概念和计算方法,首先使用基础音频特征构成音频特征图;进而利用音频特征图提取2D-Haar音频特征,再使用AdaBoost.MH算法完成对2D-Haar音频特征的筛选和说话人分类器的训练;最终使用训练好的说话人分类器实现说话人辨认。与现有技术相比,本发明可以有效地抑制大规模说话人辨认场合下辨认准确率的衰减,具有较高辨认准确率和辨认速度;不仅适用于桌面计算机,也适用于手机、平板电脑等移动计算平台。
-
公开(公告)号:CN103198833A
公开(公告)日:2013-07-10
申请号:CN201310075089.3
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于文本无关说话人确认方法。本发明提出了Turbo-Boost分类算法与2D-Haar音频特征的相结合的说话人确认方法,首先使用基础音频特征构成音频特征图;进而利用音频特征图提取2D-Haar音频特征,再使用Turbo-Boost算法,通过两轮迭代运算分别完成对2D-Haar音频特征的筛选和说话人分类器的训练;最终使用训练好的说话人分类器实现说话人确认。与现有技术相比,本发明可以在同样的运算消耗下获得更高的准确率,特别适合对于运算速度和说话人确认精度有着严格要求的说话人确认场合,例如电话自动接听系统、计算机身份认证系统、高密级门禁系统等。
-
公开(公告)号:CN103258536B
公开(公告)日:2015-10-21
申请号:CN201310074743.9
申请日:2013-03-08
Applicant: 北京理工大学
IPC: G10L17/02
Abstract: 本发明涉及一种基于2D-Haar音频特征的、适用于大规模说话者的文本无关说话人辨认方法。本发明提出了2D-Haar音频特征的概念和计算方法,首先使用基础音频特征构成音频特征图;进而利用音频特征图提取2D-Haar音频特征,再使用AdaBoost.MH算法完成对2D-Haar音频特征的筛选和说话人分类器的训练;最终使用训练好的说话人分类器实现说话人辨认。与现有技术相比,本发明可以有效地抑制大规模说话人辨认场合下辨认准确率的衰减,具有较高辨认准确率和辨认速度;不仅适用于桌面计算机,也适用于手机、平板电脑等移动计算平台。
-
公开(公告)号:CN102831447B
公开(公告)日:2015-01-21
申请号:CN201210314435.4
申请日:2012-08-30
Applicant: 北京理工大学
IPC: G06K9/66
Abstract: 本发明涉及一种基于Haar-like特征的多类别面部表情高精度识别方法,属于计算机科学与图形图像处理技术领域。本发明首先使用Haar-like特征和串联人脸检测分类器实现高准确性的人脸检测;进而利用AdaBoost.MH算法对高维Haar-like特征进行特征筛选;最终使用随机森林算法进行表情分类器训练,以完成表情识别。与现有技术相比,本发明在进一步提升多种类别表情识别率的同时,大大减少训练和识别的时间开销,并可方便地实现并行化,以进一步提高识别效率、满足实时处理及移动计算的需求。本发明可对静态图像和动态视频进行高精度识别;不仅适用于桌面计算机,也适用于手机、平板电脑等移动计算平台。
-
公开(公告)号:CN103177722A
公开(公告)日:2013-06-26
申请号:CN201310074868.1
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于音色相似度的歌曲检索方法,针对基于内容的音乐检索技术,综合利用歌曲背景音乐音色、歌唱者声音特点等特征,提出了一种基于MFCC和GMM的歌曲个性建模、计算和检索匹配的方法并加以实现,实验结果表明,该系统的检索速度快,系统稳定性高、可扩展性强。本发明特别适合对于音色要求较高的音频检索场合,例如器乐音频检索系统、多媒体音频管理系统等。
-
-
-
-
-
-
-
-
-