一种利用位置信息优化的视觉问答方法

    公开(公告)号:CN114818739A

    公开(公告)日:2022-07-29

    申请号:CN202210327078.9

    申请日:2022-03-30

    Inventor: 毛爱华 林肯

    Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤:收集训练数据,包括图片和与给定图片相关的问题;对输入的问题做前处理;对输入的图片做前处理;进行多头位置自注意力操作来得到问题中单词的融合特征向量:进行位置自注意力操作,同时利用位置联合注意力机制对视觉模态和语言模态进行融合,得到图片中的物体的融合特征向量;将物体的融合特征向量和单词的融合特征向量压缩后进行融合;构成视觉问答模型,预测问题答案,计算和真值之间差别,并通过反向传播来训练视觉问答模型,向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题,对于模型理解句子语义有帮助。

    一种利用位置信息优化的视觉问答方法

    公开(公告)号:CN114818739B

    公开(公告)日:2025-05-09

    申请号:CN202210327078.9

    申请日:2022-03-30

    Inventor: 毛爱华 林肯

    Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤:收集训练数据,包括图片和与给定图片相关的问题;对输入的问题做前处理;对输入的图片做前处理;进行多头位置自注意力操作来得到问题中单词的融合特征向量:进行位置自注意力操作,同时利用位置联合注意力机制对视觉模态和语言模态进行融合,得到图片中的物体的融合特征向量;将物体的融合特征向量和单词的融合特征向量压缩后进行融合;构成视觉问答模型,预测问题答案,计算和真值之间差别,并通过反向传播来训练视觉问答模型,向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题,对于模型理解句子语义有帮助。

Patent Agency Ranking