基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

    公开(公告)号:CN113380232B

    公开(公告)日:2022-11-15

    申请号:CN202110661855.9

    申请日:2021-06-15

    Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

    基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质

    公开(公告)号:CN113380232A

    公开(公告)日:2021-09-10

    申请号:CN202110661855.9

    申请日:2021-06-15

    Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。

    基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备

    公开(公告)号:CN113362854B

    公开(公告)日:2022-11-15

    申请号:CN202110619344.0

    申请日:2021-06-03

    Abstract: 基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测系统的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。

    基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备

    公开(公告)号:CN113362854A

    公开(公告)日:2021-09-07

    申请号:CN202110619344.0

    申请日:2021-06-03

    Abstract: 基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测系统的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。

    基于多示例学习的自动语音识别困难样本挖掘方法

    公开(公告)号:CN110335594A

    公开(公告)日:2019-10-15

    申请号:CN201910625555.8

    申请日:2019-07-11

    Abstract: 本发明提供基于多示例学习的自动语音识别困难样本挖掘方法,属于语音信号处理技术领域。本发明首先收集语料数据建立数据集、选取训练数据;然后对训练集进行人工标注;使用标注好的训练集建立困难样本检测模型,并对其进行训练;再用训练好的困难样本检测模型在剩余集合上挖掘候选困难样本;最后进行困难样本筛选与标注:对检测到的候选困难样本进行人工确认,同时将人工确认后的困难样本进行标注。本发明解决了现有自动语音识别技术需要人工标注大量数据集的问题。本发明可用于语音识别系统对新领域的快速自适应。

Patent Agency Ranking