-
公开(公告)号:CN117035008A
公开(公告)日:2023-11-10
申请号:CN202310998612.3
申请日:2023-08-09
Applicant: 北京理工大学
IPC: G06N3/042 , G06N3/0464 , G06N3/084 , G06N5/04 , G06N5/022 , G06V10/74 , G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于图神经网络的图像文本匹配方法,包括以下步骤:获取图像数据和文本数据,并通过注意力计算,分别得到图像表示和文本表示,并将图像表示和文本表示映射至共享嵌入空间;在共享嵌入空间中,将图像表示中的区域特征与文本表示中的词特征对齐;并输入到图神经网络中进行相似度推理,生成相似度矩阵;根据所述相似度矩阵,采用二次重排序算法进行图像到文本检索和文本到图像检索,通过动态三元组损失反向传播来更新网络参数;本发明通过二次重排序算法,使得模型在检索阶段可以充分利用双向检索的信息,大幅提高文本到图像检测的性能,并且不需要在模型训练中增加额外计算。
-
公开(公告)号:CN114743029A
公开(公告)日:2022-07-12
申请号:CN202210394752.5
申请日:2022-04-14
Applicant: 北京理工大学
IPC: G06V10/74 , G06V30/19 , G06V20/00 , G06V10/40 , G06V30/10 , G06V30/18 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种图像文本匹配的方法,包括:利用深度神经网络分别提取多尺度的图像特征和文本特征;利用自注意力机制方法计算多个尺度的全局相似性;进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。本发明可以在网络训练完成的前提下更快速地找出匹配的图像或文本;利用原始数据的多尺度特征以及更全面的相似性度量方法得到更准确的结果。
-
公开(公告)号:CN114743029B
公开(公告)日:2025-01-28
申请号:CN202210394752.5
申请日:2022-04-14
Applicant: 北京理工大学
IPC: G06V10/74 , G06V30/19 , G06V10/44 , G06V30/18 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明提供了一种图像文本匹配的方法,包括:利用深度神经网络分别提取多尺度的图像特征和文本特征;利用自注意力机制方法计算多个尺度的全局相似性;进行节点级匹配和结构级匹配,利用结构级匹配结果计算多个尺度的局部相似性;根据计算出的多个尺度的全局相似性和局部相似性计算最终总相似性;进行监督学习模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型计算输入图像和文本的最终总相似性,根据最终总相似性大小得到匹配的文本或图像。本发明可以在网络训练完成的前提下更快速地找出匹配的图像或文本;利用原始数据的多尺度特征以及更全面的相似性度量方法得到更准确的结果。
-
-