视觉定位驱动的跨模态行人检索方法

    公开(公告)号:CN115292533A

    公开(公告)日:2022-11-04

    申请号:CN202210989022.X

    申请日:2022-08-17

    Applicant: 苏州大学

    Inventor: 王海光 曹敏 张民

    Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。

    视觉定位驱动的跨模态行人检索方法

    公开(公告)号:CN115292533B

    公开(公告)日:2023-06-27

    申请号:CN202210989022.X

    申请日:2022-08-17

    Applicant: 苏州大学

    Inventor: 王海光 曹敏 张民

    Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。

    一种图像文本检索方法、装置及计算机存储介质

    公开(公告)号:CN114707007A

    公开(公告)日:2022-07-05

    申请号:CN202210635337.4

    申请日:2022-06-07

    Applicant: 苏州大学

    Abstract: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。

    一种图像文本检索方法、装置及计算机存储介质

    公开(公告)号:CN114707007B

    公开(公告)日:2022-08-30

    申请号:CN202210635337.4

    申请日:2022-06-07

    Applicant: 苏州大学

    Abstract: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。

Patent Agency Ranking