-
公开(公告)号:CN110895932B
公开(公告)日:2022-05-03
申请号:CN201810974049.5
申请日:2018-08-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
-
公开(公告)号:CN110070855B
公开(公告)日:2021-07-23
申请号:CN201810077556.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/02
Abstract: 本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
-
公开(公告)号:CN112949671A
公开(公告)日:2021-06-11
申请号:CN201911266932.X
申请日:2019-12-11
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于无监督特征优化的信号分类方法及系统,所述方法包括:将待分类的信号进行预处理和分帧;提取每一帧信号的基于能量的时频分类特征;将每一帧信号的能量特征输入预先训练的无监督特征优化网络,输出优化特征;所述无监督特征优化网络的准则为最大化类间距离并最小化类内距离;将优化特征输入预先训练的分类器,输出分类结果。本发明的方法能够最大化利用训练样本的类内‑类间的关系,使得神经网络学习到的表征特征更具判别性。
-
公开(公告)号:CN109975762B
公开(公告)日:2021-05-18
申请号:CN201711454053.0
申请日:2017-12-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种水下声源定位方法,包括以下步骤:将通过水听器阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换;在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源方位的映射关系模型;在测试阶段,输入测试样本的特征向量到训练好的模型,得到声源的距离和深度估计值。本发明利用深度神经网络,实现鲁棒而高效的水下声源定位。
-
公开(公告)号:CN109754790B
公开(公告)日:2020-11-06
申请号:CN201711059592.4
申请日:2017-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
-
公开(公告)号:CN110070874A
公开(公告)日:2019-07-30
申请号:CN201810065088.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02 , G10L17/10 , G10L21/0208
Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
公开(公告)号:CN106297776B
公开(公告)日:2019-07-09
申请号:CN201510266553.6
申请日:2015-05-22
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/08
Abstract: 本发明涉及一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。
-
公开(公告)号:CN106847259A
公开(公告)日:2017-06-13
申请号:CN201510882805.8
申请日:2015-12-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
-
-
-
-
-
-
-