-
公开(公告)号:CN118155624B
公开(公告)日:2025-03-28
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-
公开(公告)号:CN118155624A
公开(公告)日:2024-06-07
申请号:CN202410431630.8
申请日:2024-04-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。
-