一种结合文本纠错的流式语音识别方法

    公开(公告)号:CN118841003A

    公开(公告)日:2024-10-25

    申请号:CN202410973987.9

    申请日:2024-07-19

    Abstract: 本发明提供了一种结合文本纠错的流式语音识别方法。该方法包括:将待识别的音频数据进行分块处理后,将各个块的音频数据输入到流式语音识别系统,流式语音识别系统输出各个块的识别文本;将各个块的识别文本划分为等长文本块,再输入到纠错模型;纠错模型通过编码模块输出各个块的编码表示,再通过解码模块将各个块的编码表示逐块进行解码,利用记忆库计算当前帧与历史帧的相关性,输出纠错处理后的各个块;将纠错处理后的各个块发送至边缘补偿模块,边缘补偿模块利用历史块共同解码结果对各个块的右边缘进行修正补偿,得到各个块的音频数据的最终的识别文本。本发明方法实现了纠错模型的流式输出,使用边缘补偿机制解决了边缘错误纠正的问题。

Patent Agency Ranking