-
公开(公告)号:CN119739814A
公开(公告)日:2025-04-01
申请号:CN202411550212.7
申请日:2024-11-01
Applicant: 北京大学
IPC: G06F16/3329 , G06F16/583 , G06F40/30 , G06V30/19
Abstract: 本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备,包括:获取用户输入的原始图像和问题文本,并基于原始图像生成若干张多角度图像,多角度图像用于表征原始图像中的同一实体的不同角度;对多角度图像分别进行预处理,得到多角度图像分别对应的嵌入式向量;获取与每个嵌入式向量分别对应的可训练软提示,并基于嵌入式向量和可训练软提示进行多视角特征感知处理,得到多角度视觉特征表示;基于多角度视觉特征表示和问题文本进行预测处理,得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息,模型在生成答案时获取到的视觉信息更加丰富全面,从而缓解在多模态问答过程中存在的幻觉问题,使得模型生成答案的精度更高。
-
公开(公告)号:CN119886322A
公开(公告)日:2025-04-25
申请号:CN202411637369.3
申请日:2024-11-15
Applicant: 北京大学
IPC: G06N5/04 , G06N3/042 , G06N3/045 , G06N3/0475 , G06N3/0464
Abstract: 本发明提供一种基于混合模型的任务规划方法、装置、设备、介质和产品,该方法包括:将用户请求输入至混合模型中的第一大语言模型中,得到多个子任务;多个子任务是以有向文本图的形式被输出的;将有向文本图输入至文本嵌入模块,将有向文本图中的每个节点的文本特征转换为嵌入向量;将嵌入向量输入图神经网络,得到每个节点对应的聚合特征;将每个节点对应的聚合特征输入第二大语言模型中,得到针对用户请求的答案;其中,答案包括针对每个子任务的子答案。本申请结合了图神经网络和大语言模型各自的优势,使得用户请求显式地被拆解成多个子任务,实现准确、高可靠性和可解释的任务规划。
-
公开(公告)号:CN116828199A
公开(公告)日:2023-09-29
申请号:CN202310679250.1
申请日:2023-06-08
Applicant: 北京大学
IPC: H04N19/423 , G06V40/16 , G06F16/332 , H04L67/1097
Abstract: 本发明提供一种图像信息传输方法、装置、电子设备及存储介质,应用于第一终端,第一终端与政务区块链系统通信连接,政务区块链系统与第二终端通信连接,包括:获取待上传的人脸图像;提取人脸图像的轮廓信息;将人脸图像和视觉问答引导问题输入视觉问答预训练模型进行处理,得到针对人脸图像细节特征的文本描述;将轮廓信息和文本描述上传至政务区块链系统,以使第二终端从区块链系统上下载轮廓信息和文本描述,根据轮廓信息和文本描述重建人脸图像。本发明将人脸图像转化为对存储容量与通信带宽需求较低的文本描述以及轮廓信息,实现高效的人脸图像压缩,在保证政务区块链系统去中心化以及安全性特点的同时,实现政务区块链系统的高扩展性。
-
-