-
公开(公告)号:CN114818739A
公开(公告)日:2022-07-29
申请号:CN202210327078.9
申请日:2022-03-30
Applicant: 华南理工大学
Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤:收集训练数据,包括图片和与给定图片相关的问题;对输入的问题做前处理;对输入的图片做前处理;进行多头位置自注意力操作来得到问题中单词的融合特征向量:进行位置自注意力操作,同时利用位置联合注意力机制对视觉模态和语言模态进行融合,得到图片中的物体的融合特征向量;将物体的融合特征向量和单词的融合特征向量压缩后进行融合;构成视觉问答模型,预测问题答案,计算和真值之间差别,并通过反向传播来训练视觉问答模型,向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题,对于模型理解句子语义有帮助。
-
公开(公告)号:CN114818739B
公开(公告)日:2025-05-09
申请号:CN202210327078.9
申请日:2022-03-30
Applicant: 华南理工大学
IPC: G06V30/19 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/084 , G06N3/0464 , G06N5/04
Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤:收集训练数据,包括图片和与给定图片相关的问题;对输入的问题做前处理;对输入的图片做前处理;进行多头位置自注意力操作来得到问题中单词的融合特征向量:进行位置自注意力操作,同时利用位置联合注意力机制对视觉模态和语言模态进行融合,得到图片中的物体的融合特征向量;将物体的融合特征向量和单词的融合特征向量压缩后进行融合;构成视觉问答模型,预测问题答案,计算和真值之间差别,并通过反向传播来训练视觉问答模型,向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题,对于模型理解句子语义有帮助。
-