-
公开(公告)号:CN114842834B
公开(公告)日:2024-11-05
申请号:CN202210346308.6
申请日:2022-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
-
公开(公告)号:CN116110378A
公开(公告)日:2023-05-12
申请号:CN202310383270.4
申请日:2023-04-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种模型训练方法、语音识别方法、装置和电子设备,涉及语音识别技术领域。该方法包括:获取基于连续整合发放CIF机制训练得到的语音识别模型,并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数,分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化;再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练,使得训练出的多模态语音识别模型在进行语音识别时,在多模态语音识别中引入了情境视觉知识和情境语言知识,有效地提高了语音识别性能,拓展了多模态语音识别的边界。
-
公开(公告)号:CN116504248A
公开(公告)日:2023-07-28
申请号:CN202310345272.4
申请日:2023-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质,其中方法包括:确定训练语音文本对,得到训练语音文本对对应的高阶声学表征,并确定训练语音文本对对应的语言学表征;基于预训练语言模型确定训练语音文本对的预训练语言学表征,并对高阶声学表征和预训练语言学表征进行归一化处理,得到第一归一表征和第二归一表征;基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失,以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失;基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失,确定语音识别模型是否训练完成,并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
-
公开(公告)号:CN116110378B
公开(公告)日:2023-07-18
申请号:CN202310383270.4
申请日:2023-04-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种模型训练方法、语音识别方法、装置和电子设备,涉及语音识别技术领域。该方法包括:获取基于连续整合发放CIF机制训练得到的语音识别模型,并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数,分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化;再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练,使得训练出的多模态语音识别模型在进行语音识别时,在多模态语音识别中引入了情境视觉知识和情境语言知识,有效地提高了语音识别性能,拓展了多模态语音识别的边界。
-
公开(公告)号:CN114842834A
公开(公告)日:2022-08-02
申请号:CN202210346308.6
申请日:2022-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音文本联合预训练方法及系统,包括:将非成对语音数据和非成对文本数据输入至预训练联合模型中,得到初始损失总函数和初始训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型,得到更新损失总函数和更新训练联合模型;将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型,得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练,采用闭环言语链机理和连续累积发放机制,有效解决了非成对数据利用不充分问题,以及成对数据对齐关系学习不充分的问题。
-
-
-
-