-
公开(公告)号:CN109523995A
公开(公告)日:2019-03-26
申请号:CN201811601636.6
申请日:2018-12-26
Applicant: 出门问问信息科技有限公司
CPC classification number: G10L15/16 , G06N3/049 , G06N3/08 , G10L15/063
Abstract: 本发明实施例公开了一种语音识别方法、语音识别装置、可读存储介质和电子设备。本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
-
公开(公告)号:CN110334244A
公开(公告)日:2019-10-15
申请号:CN201910624692.X
申请日:2019-07-11
Applicant: 出门问问信息科技有限公司
Abstract: 本发明提供了一种数据处理的方法、装置及电子设备,用于解决现有技术中无法确定关键词在音频数据中的位置,影响关键词检出系统的性能的问题。包括:获取音频数据中的目标帧;确定目标帧的顶层特征向量序列;根据顶层特征向量序列确定出目标帧锚框的后验概率向量序列、以及目标帧锚框的空间变换参数向量序列;确定目标帧锚框的后验概率向量序列中的最大值、以及最大值对应的目标锚框;若最大值大于设定阈值,则确定最大值对应的目标锚框的第一时刻存在关键词;根据第一时刻以及目标锚框的长度,确定目标锚框对应的第二时刻;根据目标锚框的起始位置和结束位置,以及锚框对应的空间变换参数向量,确定出关键词的实际起止位置。
-
公开(公告)号:CN110675855B
公开(公告)日:2022-03-25
申请号:CN201910952464.5
申请日:2019-10-09
Applicant: 出门问问信息科技有限公司
Abstract: 本发明实施例公开了一种语音识别方法、电子设备及计算机可读存储介质,通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别,以获取语音识别结果,其中,语言识别系统包括预先创建的发音字典、声学模型和语言模型,所述发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图,所述音素级语音识别系统包括所述声学模型和语言模型,所述声学模型基于所述第一语种音素集训练获得,所述语言模型基于所述第一语种音素集构建,由此,可以根据第一语种音素集对第二语种词语进行注音,提高了语音识别的准确率。
-
公开(公告)号:CN109523995B
公开(公告)日:2019-07-09
申请号:CN201811601636.6
申请日:2018-12-26
Applicant: 出门问问信息科技有限公司
Abstract: 本发明实施例公开了一种语音识别方法、语音识别装置、可读存储介质和电子设备。本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
-
公开(公告)号:CN108960407A
公开(公告)日:2018-12-07
申请号:CN201810570507.9
申请日:2018-06-05
Applicant: 出门问问信息科技有限公司
IPC: G06N3/04
CPC classification number: G06N3/0454
Abstract: 本发明实施例公开了一种递归神经网路语言模型训练方法、装置、设备及介质。其中,方法包括:将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中;迭代轻量级RNNLM中的参数,最小化交叉熵损失和Kullback‑Leibler散度的加权和,以完成对轻量级RNNLM的训练;其中,交叉熵损失是轻量级RNNLM的输出向量相对于训练数据标签向量的交叉熵损失,Kullback‑Leibler散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的Kullback‑Leibler散度。本实施例提供的方法可以有效的降低RNNLM规模。
-
公开(公告)号:CN110334244B
公开(公告)日:2020-06-09
申请号:CN201910624692.X
申请日:2019-07-11
Applicant: 出门问问信息科技有限公司
Abstract: 本发明提供了一种数据处理的方法、装置及电子设备,用于解决现有技术中无法确定关键词在音频数据中的位置,影响关键词检出系统的性能的问题。包括:获取音频数据中的目标帧;确定目标帧的顶层特征向量序列;根据顶层特征向量序列确定出目标帧锚框的后验概率向量序列、以及目标帧锚框的空间变换参数向量序列;确定目标帧锚框的后验概率向量序列中的最大值、以及最大值对应的目标锚框;若最大值大于设定阈值,则确定最大值对应的目标锚框的第一时刻存在关键词;根据第一时刻以及目标锚框的长度,确定目标锚框对应的第二时刻;根据目标锚框的起始位置和结束位置,以及锚框对应的空间变换参数向量,确定出关键词的实际起止位置。
-
公开(公告)号:CN110675855A
公开(公告)日:2020-01-10
申请号:CN201910952464.5
申请日:2019-10-09
Applicant: 出门问问信息科技有限公司
Abstract: 本发明实施例公开了一种语音识别方法、电子设备及计算机可读存储介质,通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别,以获取语音识别结果,其中,语言识别系统包括预先创建的发音字典、声学模型和语言模型,所述发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图,所述音素级语音识别系统包括所述声学模型和语言模型,所述声学模型基于所述第一语种音素集训练获得,所述语言模型基于所述第一语种音素集构建,由此,可以根据第一语种音素集对第二语种词语进行注音,提高了语音识别的准确率。
-
公开(公告)号:CN108960407B
公开(公告)日:2019-07-23
申请号:CN201810570507.9
申请日:2018-06-05
Applicant: 出门问问信息科技有限公司
IPC: G06N3/04
Abstract: 本发明实施例公开了一种递归神经网路语言模型训练方法、装置、设备及介质。其中,方法包括:将语料库中的语言文本分别输入至训练完成的高秩递归神经网路语言模型RNNLM和待训练的轻量级RNNLM中;迭代轻量级RNNLM中的参数,最小化交叉熵损失和Kullback‑Leibler散度的加权和,以完成对轻量级RNNLM的训练;其中,交叉熵损失是轻量级RNNLM的输出向量相对于训练数据标签向量的交叉熵损失,Kullback‑Leibler散度是轻量级RNNLM的输出向量相对于高秩RNNLM的输出向量的Kullback‑Leibler散度。本实施例提供的方法可以有效的降低RNNLM规模。
-
-
-
-
-
-
-