-
公开(公告)号:CN113192535B
公开(公告)日:2022-09-09
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN113192535A
公开(公告)日:2021-07-30
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN111091817B
公开(公告)日:2022-10-11
申请号:CN201811242398.4
申请日:2018-10-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM‑E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM‑E,通过BLSTM‑E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM‑E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。
-
公开(公告)号:CN109754790B
公开(公告)日:2020-11-06
申请号:CN201711059592.4
申请日:2017-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
-
公开(公告)号:CN111128191A
公开(公告)日:2020-05-08
申请号:CN201911415035.0
申请日:2019-12-31
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。
-
公开(公告)号:CN118566969A
公开(公告)日:2024-08-30
申请号:CN202410639884.9
申请日:2024-05-22
Applicant: 中国科学院声学研究所
IPC: G01V1/01 , G01V1/28 , G01V1/38 , G06F18/241 , G06F18/243 , G06F18/2131 , G06N3/045 , G06N3/0464 , G06N3/09 , G06F123/02
Abstract: 本说明书提供了一种地震识别方法及一种地震识别模型训练方法,先获取包括沉浮式声学浮标采集的多个声波数据及其对应标签的声波数据集,对声波数据集中的声波数据进行短时傅里叶变换,得到声波数据的时频特征,将声波数据的时频特征作为输入,将声波数据的标签作为输出,利用上述声波数据集训练得到地震识别模型。在得到地震识别模型后,可以将沉浮式声学浮标采集的、经过短时傅里叶变换得到的声波数据输入上述地震识别模型,以识别声波数据中是否包括地震信号。上述方法实现了在充分利用地震大数据优势的基础上,完成了地震的识别。且通过充分利用时频特征提升识别准确率的地震信号识别方法,可为地震信号识别应用带来更为可靠和高效的解决方案。
-
公开(公告)号:CN111179918A
公开(公告)日:2020-05-19
申请号:CN202010106791.1
申请日:2020-02-20
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。
-
公开(公告)号:CN119128502B
公开(公告)日:2025-05-13
申请号:CN202411208752.7
申请日:2024-08-30
Applicant: 中国科学院声学研究所
IPC: G06F18/2131 , G06F18/21 , G06F18/10 , G06N3/0464 , G06N3/08 , G01S15/88 , G01S15/89 , G01S7/52 , G01S7/539
Abstract: 本申请提供了一种基于神经网络的主动声纳抗混响方法及系统,所述方法以主动声纳发射脉宽为窗长,利用训练好的卷积神经网络对回波信号进行滑窗过滤得到结果图;根据设定的门限阈值,对结果图进行阈值判决,得到过滤后的结果图。卷积神经网络的训练过程包括:在主动声纳探测中收集大量混响和真实目标数据,对数据进行波束形成等预处理;对目标信号进行傅里叶变换,提取听觉感知特征,利用预处理好的数据和提取的听觉感知特征训练卷积神经网络;按照准确率、召回率和虚警率的指标对训练效果进行评价。本申请的优势在于:基于人耳辨识的理论,提出了一种利用信号听觉感知特征及其变化情况的抗混响算法,可为主动声纳探测带来更可靠的探测效果。
-
公开(公告)号:CN119128502A
公开(公告)日:2024-12-13
申请号:CN202411208752.7
申请日:2024-08-30
Applicant: 中国科学院声学研究所
IPC: G06F18/2131 , G06F18/21 , G06F18/10 , G06N3/0464 , G06N3/08 , G01S15/88 , G01S15/89 , G01S7/52 , G01S7/539
Abstract: 本申请提供了一种基于神经网络的主动声纳抗混响方法及系统,所述方法以主动声纳发射脉宽为窗长,利用训练好的卷积神经网络对回波信号进行滑窗过滤得到结果图;根据设定的门限阈值,对结果图进行阈值判决,得到过滤后的结果图。卷积神经网络的训练过程包括:在主动声纳探测中收集大量混响和真实目标数据,对数据进行波束形成等预处理;对目标信号进行傅里叶变换,提取听觉感知特征,利用预处理好的数据和提取的听觉感知特征训练卷积神经网络;按照准确率、召回率和虚警率的指标对训练效果进行评价。本申请的优势在于:基于人耳辨识的理论,提出了一种利用信号听觉感知特征及其变化情况的抗混响算法,可为主动声纳探测带来更可靠的探测效果。
-
公开(公告)号:CN118098220A
公开(公告)日:2024-05-28
申请号:CN202410320570.2
申请日:2024-03-20
Applicant: 中国科学院声学研究所
Abstract: 本发明提供了一种端到端双语混合语音识别训练方法及系统,所述训练方法包括:使用未经训练的神经网络模型,利用多语言语音数据经过自监督训练,得到第一预训练模型;使用第一预训练模型,利用多语言语音有标注数据经过有监督训练,得到第二预训练模型;使用第二预训练模型,利用多语言语音无标注数据经过半监督训练,得到第三预训练模型;基于第三预训练模型,利用双语语音数据经过有监督训练,得到最终端到端双语混合语音识别系统。本发明的优势在于:本发明的训练方法在双语混合识别场景下,有很大的性能提升;由于该方法使用丰富的多语言语音数据进行预训练,同时采用创新的训练组合方式,该方法在双语混合语音识别场景下,识别准确率更高。
-
-
-
-
-
-
-
-
-