-
公开(公告)号:CN112951213A
公开(公告)日:2021-06-11
申请号:CN202110175961.6
申请日:2021-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。
-
公开(公告)号:CN112951213B
公开(公告)日:2022-05-24
申请号:CN202110175961.6
申请日:2021-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。
-