-
公开(公告)号:CN119739814A
公开(公告)日:2025-04-01
申请号:CN202411550212.7
申请日:2024-11-01
Applicant: 北京大学
IPC: G06F16/3329 , G06F16/583 , G06F40/30 , G06V30/19
Abstract: 本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备,包括:获取用户输入的原始图像和问题文本,并基于原始图像生成若干张多角度图像,多角度图像用于表征原始图像中的同一实体的不同角度;对多角度图像分别进行预处理,得到多角度图像分别对应的嵌入式向量;获取与每个嵌入式向量分别对应的可训练软提示,并基于嵌入式向量和可训练软提示进行多视角特征感知处理,得到多角度视觉特征表示;基于多角度视觉特征表示和问题文本进行预测处理,得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息,模型在生成答案时获取到的视觉信息更加丰富全面,从而缓解在多模态问答过程中存在的幻觉问题,使得模型生成答案的精度更高。