-
公开(公告)号:CN118747226A
公开(公告)日:2024-10-08
申请号:CN202410889007.7
申请日:2024-07-04
Applicant: 桂林电子科技大学
IPC: G06F16/532 , G06F16/583 , G06V10/40 , G06F18/213 , G06F18/22 , G06F16/332 , G06F16/383
Abstract: 本发明公开了一种目标级跨模态图文检索方法及存储介质,所述方法构建了图像‑目标信息成对数据,并在特征提取过程中将目标的位置信息集成到文本标题特征中,有效学习了图像中目标和文本的关联关系,提升了图文检索的准确性和可解释性;通过将跨模态鸿沟分布添加到图像特征中并结合鸿沟余弦损失函数最大化图像特征和目标特征的相似性,解决了图文数据的模态鸿沟问题;利用二次训练模块对错误检索数据进一步训练,获得训练完备的一种目标级跨模态图文检索模型,进一步提升了模型的性能。
-
公开(公告)号:CN118708675A
公开(公告)日:2024-09-27
申请号:CN202410742517.1
申请日:2024-06-11
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于空间预测型视觉语言预训练模型的跨模态图文检索方法及存储介质,所述方法通过将局部语义预测视觉空间位置引入到视觉语言预训练模型中,使预训练模型能够学习到更有效的高级语义,有效提升下游跨模态图文检索任务的性能;利用基于空间预测型视觉语言预训练模型对下游图文检索数据进行特征提取,构建四元组损失函数并执行有监督跨模态图文检索;利用四元组构造模块挖掘与正样本具有强语义关联假负例样本,减少了假负例样本对图文检索的影响。
-