-
公开(公告)号:CN114547235B
公开(公告)日:2024-04-16
申请号:CN202210060418.6
申请日:2022-01-19
Applicant: 西北大学
IPC: G06F16/33 , G06F40/211 , G06F40/216 , G06F40/289 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及基于先验知识图的图像文本匹配模型的构建方法,构建的模型包括先验知识图模块、图像文本匹配模块和整合模块;先验知识图模块和图像文本匹配模块分别与整合模块相连接。采用构建外部先验知识图来指导图像文本匹配,极大增强模型对真实场景的理解能力,利用图卷积来构建先验知识图之间的关系,取代使用交叉注意力机制成对的计算所有图像区域和文本片段之间的局部注意力关系,减少了计算量和参数量,提高了模型的训练速度和推理速度;使用自注意力机制transformer来聚合图像区域间的注意力关系;使用预训练模型BERT提取文本特征向量,再利用注意力机制来聚合文本向量中词与词之间的注意力关系;有效提高了图像文本匹配的准确率。
-
公开(公告)号:CN114547235A
公开(公告)日:2022-05-27
申请号:CN202210060418.6
申请日:2022-01-19
Applicant: 西北大学
IPC: G06F16/33 , G06F40/211 , G06F40/216 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于先验知识图的图像文本匹配模型的构建方法,构建的模型包括先验知识图模块、图像文本匹配模块和整合模块;先验知识图模块和图像文本匹配模块分别与整合模块相连接。采用构建外部先验知识图来指导图像文本匹配,极大增强模型对真实场景的理解能力,利用图卷积来构建先验知识图之间的关系,取代使用交叉注意力机制成对的计算所有图像区域和文本片段之间的局部注意力关系,减少了计算量和参数量,提高了模型的训练速度和推理速度;使用自注意力机制transformer来聚合图像区域间的注意力关系;使用预训练模型BERT提取文本特征向量,再利用注意力机制来聚合文本向量中词与词之间的注意力关系;有效提高了图像文本匹配的准确率。
-