Patent search ap:("华南理工大学") AND inv:"林肯" Page 1

1.

发明公开
一种利用位置信息优化的视觉问答方法有权

公开(公告)号：CN114818739A

公开(公告)日：2022-07-29

申请号：CN202210327078.9

申请日：2022-03-30

Applicant: 华南理工大学

Inventor： 毛爱华 , 林肯

IPC: G06F40/35 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤：收集训练数据，包括图片和与给定图片相关的问题；对输入的问题做前处理；对输入的图片做前处理；进行多头位置自注意力操作来得到问题中单词的融合特征向量：进行位置自注意力操作，同时利用位置联合注意力机制对视觉模态和语言模态进行融合，得到图片中的物体的融合特征向量；将物体的融合特征向量和单词的融合特征向量压缩后进行融合；构成视觉问答模型，预测问题答案，计算和真值之间差别，并通过反向传播来训练视觉问答模型，向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题，对于模型理解句子语义有帮助。

2.

发明授权
一种利用位置信息优化的视觉问答方法有权

公开(公告)号：CN114818739B

公开(公告)日：2025-05-09

申请号：CN202210327078.9

申请日：2022-03-30

Applicant: 华南理工大学

Inventor： 毛爱华 , 林肯

IPC: G06V30/19 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/084 , G06N3/0464 , G06N5/04

Abstract: 本发明公开了一种利用位置信息优化的视觉问答方法。所述方法包括以下步骤：收集训练数据，包括图片和与给定图片相关的问题；对输入的问题做前处理；对输入的图片做前处理；进行多头位置自注意力操作来得到问题中单词的融合特征向量：进行位置自注意力操作，同时利用位置联合注意力机制对视觉模态和语言模态进行融合，得到图片中的物体的融合特征向量；将物体的融合特征向量和单词的融合特征向量压缩后进行融合；构成视觉问答模型，预测问题答案，计算和真值之间差别，并通过反向传播来训练视觉问答模型，向训练后的视觉问答模型输入数据即可进行视觉问答。本发明提出的视觉问答方法能更好地理解问题，对于模型理解句子语义有帮助。

Patent Agency Ranking