Patent search ap:("北京大学") AND inv:"李昱志" Page 1

1.

发明公开
基于多角度图像的多模态问答方法、装置、电子设备审中-实审

公开(公告)号：CN119739814A

公开(公告)日：2025-04-01

申请号：CN202411550212.7

申请日：2024-11-01

Applicant: 北京大学

Inventor： 李昱志 , 谭志杰 , 李伟平 , 莫同

IPC: G06F16/3329 , G06F16/583 , G06F40/30 , G06V30/19

Abstract: 本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备，包括：获取用户输入的原始图像和问题文本，并基于原始图像生成若干张多角度图像，多角度图像用于表征原始图像中的同一实体的不同角度；对多角度图像分别进行预处理，得到多角度图像分别对应的嵌入式向量；获取与每个嵌入式向量分别对应的可训练软提示，并基于嵌入式向量和可训练软提示进行多视角特征感知处理，得到多角度视觉特征表示；基于多角度视觉特征表示和问题文本进行预测处理，得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息，模型在生成答案时获取到的视觉信息更加丰富全面，从而缓解在多模态问答过程中存在的幻觉问题，使得模型生成答案的精度更高。

Patent Agency Ranking