-
公开(公告)号:CN107123432A
公开(公告)日:2017-09-01
申请号:CN201710334633.X
申请日:2017-05-12
Applicant: 北京理工大学
CPC classification number: G10L25/51 , G10L15/06 , G10L15/063 , G10L25/03 , G10L25/24 , G10L25/45 , G10L2015/0635
Abstract: 本发明涉及一种自匹配Top‑N音频事件识别信道自适应方法,从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明首先进行数据预处理,预处理过程包括量化、采样、预加重和加窗,然后进行特征提取,也就是对所需音频底层特征参数进行抽取,之后进行特征向量生成,也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量,接下来是特征映射,特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程,特征映射FM模块可分为FM训练和FM使用两个部分,最后进行模型训练和识别。本发明可以解决不同k值信道模型下高斯分量个数Top‑N的选择性问题和覆盖信道信息不均匀的问题,为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。
-
公开(公告)号:CN106941007A
公开(公告)日:2017-07-11
申请号:CN201710334631.0
申请日:2017-05-12
Applicant: 北京理工大学
CPC classification number: G10L25/03 , G10L15/06 , G10L15/063 , G10L25/45 , G10L25/51
Abstract: 本发明涉及一种音频事件模型合成信道自适应方法,属于计算机与信息科学技术领域。本发明首先对待识别音频进行预处理和特征提取,包括对音频的量化采样、预加重和加窗,并对音频的底层特征参数进行提取和特征帧序列切分,得到音频特征段向量;然后进行音频事件模型合成训练,构建通用背景模型及音频事件原始模型;最后进行音频事件模型合成使用,选择性的对音频事件模型进行自适应,并完成事件判定和识别。本发明在不同信道失配情况下,均可明显提升音频事件识别性能,自适应后的识别准确率和召回率接近信道匹配情况,有效实现了模型域信道自适应。
-
公开(公告)号:CN103177722B
公开(公告)日:2016-04-20
申请号:CN201310074868.1
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于音色相似度的歌曲检索方法,针对基于内容的音乐检索技术,综合利用歌曲背景音乐音色、歌唱者声音特点等特征,提出了一种基于MFCC和GMM的歌曲个性建模、计算和检索匹配的方法并加以实现,实验结果表明,该系统的检索速度快,系统稳定性高、可扩展性强。本发明特别适合对于音色要求较高的音频检索场合,例如器乐音频检索系统、多媒体音频管理系统等。
-
-
公开(公告)号:CN103177722A
公开(公告)日:2013-06-26
申请号:CN201310074868.1
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于音色相似度的歌曲检索方法,针对基于内容的音乐检索技术,综合利用歌曲背景音乐音色、歌唱者声音特点等特征,提出了一种基于MFCC和GMM的歌曲个性建模、计算和检索匹配的方法并加以实现,实验结果表明,该系统的检索速度快,系统稳定性高、可扩展性强。本发明特别适合对于音色要求较高的音频检索场合,例如器乐音频检索系统、多媒体音频管理系统等。
-
-
-
-