-
公开(公告)号:CN115712740B
公开(公告)日:2023-06-06
申请号:CN202310031393.1
申请日:2023-01-10
Applicant: 苏州大学
IPC: G06F16/432 , G06F16/483 , G06F16/45 , G06N3/048 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
-
公开(公告)号:CN116258946B
公开(公告)日:2023-08-11
申请号:CN202310547450.1
申请日:2023-05-16
Applicant: 苏州大学
Abstract: 本发明涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
-
公开(公告)号:CN116258946A
公开(公告)日:2023-06-13
申请号:CN202310547450.1
申请日:2023-05-16
Applicant: 苏州大学
Abstract: 本发明涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
-
公开(公告)号:CN115712740A
公开(公告)日:2023-02-24
申请号:CN202310031393.1
申请日:2023-01-10
Applicant: 苏州大学
IPC: G06F16/432 , G06F16/483 , G06F16/45 , G06N3/048 , G06N3/084
Abstract: 本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
-
-
-