一种基于修改文本反馈的多模态图像检索方法

    公开(公告)号:CN117932099A

    公开(公告)日:2024-04-26

    申请号:CN202410324364.9

    申请日:2024-03-21

    Abstract: 本发明提供一种基于修改文本反馈的多模态图像检索方法,属于多模态图像检索技术领域,包括:选择目标图像集,获取参考图像,利用CLIP的图像编码器提取参考图像特征;输入修改文本,利用CLIP的文本编码器提取修改文本特征,将参考图像特征和修改文本特征输入至特征组合器进行特征融合,得到组合特征;提取候选图像集的特征,与组合特征进行相似度计算,将相似度前50的图像划分为高置信度目标图像,根据相似度大小对高置信度目标图像进行排名,将置信度最高的图像作为新的参考图像,根据设定的相似度阈值判断是否需要再次补充修改文本,直至找到目标图像。本发明还提出了基于两阶段训练和双重注意力的组合图像检索模型,来提升检索准确性。

    一种基于修改文本反馈的多模态图像检索方法

    公开(公告)号:CN117932099B

    公开(公告)日:2024-07-23

    申请号:CN202410324364.9

    申请日:2024-03-21

    Abstract: 本发明提供一种基于修改文本反馈的多模态图像检索方法,属于多模态图像检索技术领域,包括:选择目标图像集,获取参考图像,利用CLIP的图像编码器提取参考图像特征;输入修改文本,利用CLIP的文本编码器提取修改文本特征,将参考图像特征和修改文本特征输入至特征组合器进行特征融合,得到组合特征;提取候选图像集的特征,与组合特征进行相似度计算,将相似度前50的图像划分为高置信度目标图像,根据相似度大小对高置信度目标图像进行排名,将置信度最高的图像作为新的参考图像,根据设定的相似度阈值判断是否需要再次补充修改文本,直至找到目标图像。本发明还提出了基于两阶段训练和双重注意力的组合图像检索模型,来提升检索准确性。

Patent Agency Ranking