-
公开(公告)号:CN111798840B
公开(公告)日:2023-08-08
申请号:CN202010688457.1
申请日:2020-07-16
Applicant: 中移在线服务有限公司 , 中国科学院声学研究所
Abstract: 本申请提供一种语音关键词识别方法和装置,从目标关键词的音频中提取出第一声学特征和第二声学特征,将第一声学特征和第二声学特征拼接为第一声学特征序列;从待识别的目标语音的音频中提取出第三声学特征和第四声学特征,将第三声学特征和第四声学特征拼接为第二声学特征序列;将第一、第二声学特征序列分别输入预先训练的第一模型和第二模型,输出第一、第二嵌入向量;计算第一嵌入向量与第二嵌入式向量之间的相似度,基于相似度确定目标语音中是否包含目标关键词。该方法使得输出的嵌入向量包含更多的上下文信息,改善了样例关键词识别的有效性。
-
公开(公告)号:CN111798840A
公开(公告)日:2020-10-20
申请号:CN202010688457.1
申请日:2020-07-16
Applicant: 中移在线服务有限公司 , 中国科学院声学研究所
Abstract: 本申请提供一种语音关键词识别方法和装置,从目标关键词的音频中提取出第一声学特征和第二声学特征,将第一声学特征和第二声学特征拼接为第一声学特征序列;从待识别的目标语音的音频中提取出第三声学特征和第四声学特征,将第三声学特征和第四声学特征拼接为第二声学特征序列;将第一、第二声学特征序列分别输入预先训练的第一模型和第二模型,输出第一、第二嵌入向量;计算第一嵌入向量与第二嵌入式向量之间的相似度,基于相似度确定目标语音中是否包含目标关键词。该方法使得输出的嵌入向量包含更多的上下文信息,改善了样例关键词识别的有效性。
-
公开(公告)号:CN118566969A
公开(公告)日:2024-08-30
申请号:CN202410639884.9
申请日:2024-05-22
Applicant: 中国科学院声学研究所
IPC: G01V1/01 , G01V1/28 , G01V1/38 , G06F18/241 , G06F18/243 , G06F18/2131 , G06N3/045 , G06N3/0464 , G06N3/09 , G06F123/02
Abstract: 本说明书提供了一种地震识别方法及一种地震识别模型训练方法,先获取包括沉浮式声学浮标采集的多个声波数据及其对应标签的声波数据集,对声波数据集中的声波数据进行短时傅里叶变换,得到声波数据的时频特征,将声波数据的时频特征作为输入,将声波数据的标签作为输出,利用上述声波数据集训练得到地震识别模型。在得到地震识别模型后,可以将沉浮式声学浮标采集的、经过短时傅里叶变换得到的声波数据输入上述地震识别模型,以识别声波数据中是否包括地震信号。上述方法实现了在充分利用地震大数据优势的基础上,完成了地震的识别。且通过充分利用时频特征提升识别准确率的地震信号识别方法,可为地震信号识别应用带来更为可靠和高效的解决方案。
-
公开(公告)号:CN117789771A
公开(公告)日:2024-03-29
申请号:CN202311545240.5
申请日:2023-11-20
Applicant: 中国科学院声学研究所
IPC: G10L25/63 , G10L13/02 , G10L17/04 , G10L19/008
Abstract: 本发明涉及智能数字信号处理领域,具体涉及一种跨语言端到端情感语音合成方法及系统。采用本方法训练深度神经网络模型,可通过给定待合成A语种文本及带有情感的B语种参考语音,合成自然流畅、情感表达良好的A语种目标说话人语音。具体方法包括:采集语音‑文本成对的原始训练数据,提取语音频域特征,离散编码文本,提取语言无关情感嵌入编码,构建完全端到端情感语音合成模型并进行有监督训练。上述语音合成模型内含情感文本融合编码模块、目标时长预测模块、后验编码模块、音频解码模块和判别模块。语音合成模型训练至收敛后,可通过先验编码模块、时长预测模块和音频解码模块推理出所需要的目标说话人情感语音。
-
公开(公告)号:CN111354347B
公开(公告)日:2023-08-15
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
公开(公告)号:CN118351845A
公开(公告)日:2024-07-16
申请号:CN202410386826.X
申请日:2024-04-01
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种提升语音指令识别准确率的方法,用于提升基于神经网络的现有语音指令识别系统的指令识别准确率;该方法包括:准备目标场景的语音指令数据;测试和记录尖峰建模单元序列;整理低准确率指令的尖峰建模单元序列作为易混淆建模单元序列;初选易混淆建模单元序列;将选出的每条易混淆建模单元序列当作一个新的指令词语,加入原始指令建模单元序列集,重构解码网络;使用重构的解码网络更新现有语音指令识别系统中的解码网络,在测试集上重新测试;判断指令识别准确率是否满足性能需求,若不满足,则根据新增的指令误识别情况调整易混淆建模单元序列,重构解码网络,再次进行测试。本申请的优势在于:使用少量数据实现了指令性能提升。
-
公开(公告)号:CN111179920B
公开(公告)日:2023-01-24
申请号:CN201911415037.X
申请日:2019-12-31
Applicant: 中国科学院声学研究所
IPC: G10L15/20 , G10L21/02 , G10L21/0216
Abstract: 本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
-
公开(公告)号:CN112951211B
公开(公告)日:2022-10-18
申请号:CN202110437391.3
申请日:2021-04-22
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
-
公开(公告)号:CN111243578A
公开(公告)日:2020-06-05
申请号:CN202010027248.2
申请日:2020-01-10
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,提高了端到端语音识别系统性能。
-
公开(公告)号:CN116092516A
公开(公告)日:2023-05-09
申请号:CN202310073162.7
申请日:2023-01-13
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种抑制混叠伪影的方法,所述方法具体包括:将输入生成器的声学特征x0过普通卷积后的特征x1,输入第一层上采样模块;自第一层上采样模块起,对输入第i‑1层上采样模块的特征xi‑1执行步骤:对特征xi‑1上采样ri‑1倍,得到特征将特征过低通滤波器,得到抗混叠特征将声学特征x0上采样倍,得到的特征过普通卷积生成高频特征ni;将生成的高频特征ni和抗混叠特征相加后,过非线性残差模块非线性激活生成xi并输出。还涉及了装置,包括:第一普通卷积模块和至少两层上采样模块。本发明的方法和装置,能够在保持生成高质量语音的同时,避免混叠伪影。
-
-
-
-
-
-
-
-
-