一种端到端长时语音识别方法

    公开(公告)号:CN113516968B

    公开(公告)日:2022-05-20

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

    一种端到端长时语音识别方法

    公开(公告)号:CN113516968A

    公开(公告)日:2021-10-19

    申请号:CN202110631808.X

    申请日:2021-06-07

    Abstract: 本发明提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN‑T模型,将语音特征输入进的RNN‑T模型进行训练,得到训练好的改进的RNN‑T模型;将训练好的改进的RNN‑T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,利用训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。本发明通过对外部语言模型、长时语音识别算法模块和RNN‑T模型三部分进行融合,提升了模型长时语音识别的鲁棒性和泛化能力的同时,优化了算法的时间和空间复杂度。

Patent Agency Ranking