-
公开(公告)号:CN114913403B
公开(公告)日:2022-09-20
申请号:CN202210839762.5
申请日:2022-07-18
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于度量学习的视觉问答方法,采用自注意力编码器和交叉注意力模块对自然语言问题特征与视觉图像特征在高维特征空间中进行对齐与映射;采用自监督的多模态度量学习方法将自然语言问题特征与视觉图像特征进行相似度度量,并将视觉图像特征分为积极视觉特征与消极视觉特征;积极视觉特征与原视觉特征通过与自然语言问题特征融合从而得到正确的答案,消极视觉特征与然语言问题特征融合不能获得正确的答案。本发明实现了在高维特征空间中多模态特征的相似度度量,并采用对比的学习方式对度量出的积极视觉特征与消极视觉特征对抗训练,缓解了视觉问答中语义鸿沟与语义偏差问题,提高了视觉问答模型的性能与鲁棒性。
-
公开(公告)号:CN117235670A
公开(公告)日:2023-12-15
申请号:CN202311490620.3
申请日:2023-11-10
Applicant: 南京信息工程大学
IPC: G06F18/25 , G06F18/24 , G16H50/20 , G06F16/583 , G06F16/55 , G06F16/33 , G06F16/35 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请涉及一种基于细粒度交叉注意力的医学影像问题视觉解答方法。该方法包括:获取放射性医疗图像和所述放射性医疗图像对应症状问题的文本数据,采用细粒度视觉特征提取模块对所述放射性医疗图像进行局部特征提取,获得局部图像特征,采用文本特征提取模块对所述文本数据进行特征提取,获得文本特征,再将由局部图像特征和文本特征组成的多模态特征对输入到交叉模态编码器模块进行多模态特征融合,获得融合后的特征,进而将所述融合后的特征输入到答案预测模块中进行答案预测,获得答案预测结果,以根据所述答案预测结果对所述症状问题进行解答,从而提高了医学视觉问题解答的准确性。
-
公开(公告)号:CN114913403A
公开(公告)日:2022-08-16
申请号:CN202210839762.5
申请日:2022-07-18
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于度量学习的视觉问答方法,采用自注意力编码器和交叉注意力模块对自然语言问题特征与视觉图像特征在高维特征空间中进行对齐与映射;采用自监督的多模态度量学习方法将自然语言问题特征与视觉图像特征进行相似度度量,并将视觉图像特征分为积极视觉特征与消极视觉特征;积极视觉特征与原视觉特征通过与自然语言问题特征融合从而得到正确的答案,消极视觉特征与然语言问题特征融合不能获得正确的答案。本发明实现了在高维特征空间中多模态特征的相似度度量,并采用对比的学习方式对度量出的积极视觉特征与消极视觉特征对抗训练,缓解了视觉问答中语义鸿沟与语义偏差问题,提高了视觉问答模型的性能与鲁棒性。
-
-