-
公开(公告)号:CN116775927A
公开(公告)日:2023-09-19
申请号:CN202310585136.2
申请日:2023-05-23
Applicant: 北京交通大学
IPC: G06F16/583 , G06F16/33 , G06V10/46 , G06V10/74 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于局部上下文的跨模态图文检索方法及系统,属于计算机视觉、模式识别及人工智能技术领域,获取数据并预处理后,使用自底向上的注意力机制提取图像中的显著区域;使用序列模型获得文本特征;对图像的区域特征和文本的单词特征分别建立图结构,并使用图卷积神经网络进行模态内关联性挖掘;模型加入了区域上下文学习模块,从方向和距离的角度学习图像区域的上下文信息,获得了图像中不同区域之间的空间关系和潜在语义关系。引入交叉注意力机制进行模态间交互探索模态间细粒度对应关系,将增强后的局部特征与通过自注意力得到的全局特征拼接,使用多层注意力公式对其进行相似度推理,获得最终的相似度分数,提高了图文检索的精度。