-
公开(公告)号:CN119398174A
公开(公告)日:2025-02-07
申请号:CN202411533851.2
申请日:2024-10-31
Applicant: 南京邮电大学
IPC: G06N5/04 , G06V10/44 , G06F18/213 , G06F18/25
Abstract: 本发明公开了一种基于答案引导的视觉常识推理去偏方法及系统,涉及视觉常识推理技术领域,包括以下步骤:获取图片与原始文本,将图片与原始文本进行配对,得到负样本,提取负样本内图片和问题以及答案文本;将图片和问题输入至预先建立的图片编码器内,输出得到图片编码特征,将答案文本输入至预先建立的文本编码器内,输出得到文本编码特征,将图片编码特征和文本编码特征通过单模态特征处理以及模态间特征融合,得到多模态特征;接收视觉常识推理数据集,抽取视觉常识推理数据集内的正确候选答案,生成去偏特征样本集,提取去偏特征样本集内特征,作为答案特征;将多模态特征与答案特征经过注意力机制,计算得到融合特征,基于融合特征计算得出候选答案的概率,将候选答案的概率最高的候选答案作为预测答案。