-
公开(公告)号:CN118887703A
公开(公告)日:2024-11-01
申请号:CN202411061423.4
申请日:2024-08-05
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于预训练模型的跨模态文本到行人图像检索方法及存储介质,本发明改进了掩蔽语言建模策略,使用全词掩码策略,能够更好的挖掘图像与文本之间的细粒度关系。并且运用文本的属性这一特征,利用交叉模态编码器进行文本与图像之间的融合交互,以此学习更多的信息,进一步还提供了一个基于软注意力模态融合模块,加入此模块可以促进相同语义类别间的模态信息交互,从而达到更好的检索性能。