一种用于未配对图像文本匹配的多模态概念知识对齐方法

    公开(公告)号:CN116881731A

    公开(公告)日:2023-10-13

    申请号:CN202310770444.2

    申请日:2023-06-27

    Abstract: 本发明提供一种用于未配对图像文本匹配的多模态概念知识对齐方法,包括:从公开数据集中收集图像文本组,并基于图像文本组中单词相关图像区域对应的原型区域表示,获取预训练的常识;基于双向区域单词循环一致学习,以及未配对的图像和文本,对预训练的常识通过自监督学习方式进行细化,获取微调的领域知识;基于微调的领域知识,将未配对的图像和文本进行匹配,并通过原型区域表示来表示文本中已解析的单词,确定各单词与各图像区域表示对应的区域单词相似性分数;基于双向相似性池化模块,将图像文本组中各单词与各图像区域表示对应的区域单词相似性分数聚合为各图像文本全局相似性分数,显著提高在零样本和跨数据集图像文本匹配方面的性能。

Patent Agency Ranking