-
公开(公告)号:CN115481277A
公开(公告)日:2022-12-16
申请号:CN202211167934.5
申请日:2022-09-23
Applicant: 电子科技大学
IPC: G06F16/583 , G06F16/532 , G06F16/9032 , G06V10/25 , G06V10/764 , G06V10/80 , G06V10/82
Abstract: 该发明公开了一种基于对比学习与多模态对齐的视觉问答方法,属于视觉问答领域,该方法在分布不平衡的视觉问答数据集下实现鲁棒的视觉问答。现有的基于数据增强的鲁棒视觉问答方法往往基于反事实样本增强,并把反事实样本作为数据增广添加入训练中,但并未在特征和预测层次中构建区分反事实样本的过程,未深入挖掘样本之间的关系。本发明提出了基于对比学习与多模态对齐的视觉问答方法来解决视觉问答中的语言偏见问题,通过在特征和预测层面进行对比学习来降低模型的复杂度,提高视觉问答模型的泛化能力,从而实现在语言偏见场景下鲁棒的视觉问答。
-
公开(公告)号:CN115481277B
公开(公告)日:2025-04-08
申请号:CN202211167934.5
申请日:2022-09-23
Applicant: 电子科技大学
IPC: G06F16/583 , G06F16/532 , G06F16/9032 , G06V10/25 , G06V10/764 , G06V10/80 , G06V10/82
Abstract: 该发明公开了一种基于对比学习与多模态对齐的视觉问答方法,属于视觉问答领域,该方法在分布不平衡的视觉问答数据集下实现鲁棒的视觉问答。现有的基于数据增强的鲁棒视觉问答方法往往基于反事实样本增强,并把反事实样本作为数据增广添加入训练中,但并未在特征和预测层次中构建区分反事实样本的过程,未深入挖掘样本之间的关系。本发明提出了基于对比学习与多模态对齐的视觉问答方法来解决视觉问答中的语言偏见问题,通过在特征和预测层面进行对比学习来降低模型的复杂度,提高视觉问答模型的泛化能力,从而实现在语言偏见场景下鲁棒的视觉问答。
-