端到端的在线语音检测与识别方法、系统及设备

    公开(公告)号:CN112951213A

    公开(公告)日:2021-06-11

    申请号:CN202110175961.6

    申请日:2021-02-09

    Inventor: 周世玉 徐波 李蒙

    Abstract: 本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。

    一种语音文本联合预训练方法及系统

    公开(公告)号:CN114842834A

    公开(公告)日:2022-08-02

    申请号:CN202210346308.6

    申请日:2022-03-31

    Abstract: 本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。

    一种语音文本联合预训练方法及系统

    公开(公告)号:CN114842834B

    公开(公告)日:2024-11-05

    申请号:CN202210346308.6

    申请日:2022-03-31

    Abstract: 本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。

    端到端的在线语音检测与识别方法、系统及设备

    公开(公告)号:CN112951213B

    公开(公告)日:2022-05-24

    申请号:CN202110175961.6

    申请日:2021-02-09

    Inventor: 周世玉 徐波 李蒙

    Abstract: 本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。

    低资源多语言的语音识别模型、语音识别方法

    公开(公告)号:CN110428818B

    公开(公告)日:2021-09-28

    申请号:CN201910732557.7

    申请日:2019-08-09

    Inventor: 周世玉 徐波

    Abstract: 本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法,旨在为了解决多语言混用状态下小语种语言识别准确度低的问题。本发明语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表;所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据。本发明提高了包含小语种的多语种语音信息识别的准确度。

    低资源多语言的语音识别模型、语音识别方法

    公开(公告)号:CN110428818A

    公开(公告)日:2019-11-08

    申请号:CN201910732557.7

    申请日:2019-08-09

    Inventor: 周世玉 徐波

    Abstract: 本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法,旨在为了解决多语言混用状态下小语种语言识别准确度低的问题。本发明语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表;所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据。本发明提高了包含小语种的多语种语音信息识别的准确度。

Patent Agency Ranking