一种应用到端到端语音识别的CLDNN结构的建立方法

    公开(公告)号:CN109767759B

    公开(公告)日:2020-12-22

    申请号:CN201910115486.6

    申请日:2019-02-14

    Inventor: 冯昱劼 张毅 徐轩

    Abstract: 本发明请求保护一种基于改进型CLDNN结构的端到端语音识别方法,常用于语音识别的传统CLDNN结构采用全连接LSTM(Long Short Term Memory)模型处理语音信号中的时序信息,在训练过程中易发生过拟合现象,影响学习效果。更深的模型往往表现更为优秀,但通过简单堆叠网络层增加模型深度会发生梯度消失、梯度爆炸和“退化”问题。针对以上现象及问题,本发明提出一种改进型CLDNN结构,采用残差网络和ConvLSTM结合方式建立残差ConvLSTM模型,并以此代替传统CLDNN结构中的全连接LSTM模型。该模型结构改善了传统CLDNN模型存在的问题,并且可以通过堆叠残差ConvLSTM块增加模型深度而不发生梯度消失、梯度爆炸和“退化”问题,使语音识别系统性能更优。

    基于改进型CLDNN结构的端到端语音识别方法

    公开(公告)号:CN109767759A

    公开(公告)日:2019-05-17

    申请号:CN201910115486.6

    申请日:2019-02-14

    Inventor: 冯昱劼 张毅 徐轩

    Abstract: 本发明请求保护一种基于改进型CLDNN结构的端到端语音识别方法,常用于语音识别的传统CLDNN结构采用全连接LSTM(Long Short Term Memory)模型处理语音信号中的时序信息,在训练过程中易发生过拟合现象,影响学习效果。更深的模型往往表现更为优秀,但通过简单堆叠网络层增加模型深度会发生梯度消失、梯度爆炸和“退化”问题。针对以上现象及问题,本发明提出一种改进型CLDNN结构,采用残差网络和ConvLSTM结合方式建立残差ConvLSTM模型,并以此代替传统CLDNN结构中的全连接LSTM模型。该模型结构改善了传统CLDNN模型存在的问题,并且可以通过堆叠残差ConvLSTM块增加模型深度而不发生梯度消失、梯度爆炸和“退化”问题,使语音识别系统性能更优。

Patent Agency Ranking