-
公开(公告)号:CN117095681A
公开(公告)日:2023-11-21
申请号:CN202311101230.2
申请日:2023-08-30
Applicant: 中国科学院声学研究所 , 广东省公安厅第八处
IPC: G10L15/26 , G10L15/18 , G10L25/63 , G10L15/06 , G10L21/0208
Abstract: 本发明提供了一种双级过滤语音内容筛选系统及方法,所述系统包括:第一级快速粗筛模块和第二级细致过滤定位模块;其中,所述第一级快速粗筛模块,用于快速分析和识别语音,根据预设的关键词进行初步筛选,标记并输出可能感兴趣的候选语音片段及对应文本列表;所述第二级细致过滤定位模块,用于以所述可能感兴趣的候选语音片段及对应文本列表为输入,通过语言内容理解分析,确定感兴趣目标的位置。本发明的优势在于:本申请引入亿级参数的深度学习模型,提供一种高效、精准的语音内容筛选系统,快速识别和过滤大量语音数据,并定位目标和感兴趣的部分,利用丰富语料资源训练模型,以提高系统的处理能力和准确性。
-
公开(公告)号:CN111128191B
公开(公告)日:2023-03-28
申请号:CN201911415035.0
申请日:2019-12-31
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。
-
公开(公告)号:CN111091817A
公开(公告)日:2020-05-01
申请号:CN201811242398.4
申请日:2018-10-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E,通过BLSTM-E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM-E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。
-
公开(公告)号:CN109754790A
公开(公告)日:2019-05-14
申请号:CN201711059592.4
申请日:2017-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
-
-
-