-
公开(公告)号:CN117010501A
公开(公告)日:2023-11-07
申请号:CN202310845914.7
申请日:2023-07-11
Applicant: 哈尔滨工程大学
Abstract: 本发明公开了一种基于场景图神经网络推理机制的视觉问答系统及方法,包括问题嵌入模块、场景图提取模块、图神经网络注意力推理模块和答案预测模块,问题嵌入模块获取文本问题特征,文本问题通过Tokenizer模块进行词语分割和Transformer网络进行特征提取;场景图提取模块获取图像视觉特征,将特征嵌入为含有丰富图象信息的场景图;图神经网络注意力推理模块联合场景图特征和问题特征引入协同注意力推理机制进行协同注意力迭代推理,以同时关注深层文本信息和视觉信息;答案预测模块获取图神经注意力推理网络的最后迭代状态,和文本全局特征信息共同输入分类器进行答案预测。本发明性能相较于传统视觉问答模型得到显著提升。
-
公开(公告)号:CN115952306A
公开(公告)日:2023-04-11
申请号:CN202211550485.2
申请日:2022-12-05
Applicant: 哈尔滨工程大学
IPC: G06F16/432 , G06F16/41 , G06F16/435 , G06F16/45 , G06N3/042 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于场景图的图像内容检索方法,本发明通过结构化的方式,检索出符合描述的图片集。基于场景图的图像检索方法从图像整体的内容入手,更加注重于目标与目标之间的视觉关系。这种视觉关系,以图的形式组成,将图像以一种结构化描述的形式展现出来,利用这种复杂的结构化形式完成检索任务,通过这种更加细致地描述提升了基于图像内容检索的准确度,也满足了人们对于细粒度的图像检索任务的要求。本发明并不局限于检索出单目标或多目标的名称与特点,更在于对多目标之间的相互作用关系进行检索。
-