一种基于CLIP背景知识的图文特征融合方法

    公开(公告)号:CN116246279A

    公开(公告)日:2023-06-09

    申请号:CN202211691723.1

    申请日:2022-12-28

    Abstract: 本发明涉及一种基于CLIP背景知识的图文特征融合方法,属于图文融合信息处理与应用技术领域。首先利用OCR图片文本识别模型,对数据集中的每张图片进行文本提取,并将其添加至输入中。对输入分别使用不同的预训练模型得到向量表示。将各个隐向量串联,然后经过两个Transformer编码器,计算不同模态向量间的关系。之后使用CLIP模型,分别抽取图片和文本的向量,得到富有知识的多模态融合特征。将多模态融合特征串联后输入到全连接层,使用softmax函数进行归一化,由此在CLIP语境下得到了图文的融合特征,完成基于CLIP背景知识的多模态特征融合。本发明丰富了图片和文本之间的联系,使用OCR增强了图片模态在文本模态上的关系,提升了多模态融合特征的表示程度。

    一种基于迁移学习的风格化图像描述生成方法

    公开(公告)号:CN115294427A

    公开(公告)日:2022-11-04

    申请号:CN202210392972.4

    申请日:2022-04-14

    Abstract: 本发明涉及一种基于迁移学习的风格化图像描述生成方法,属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法,使用两个映射网络,分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息,并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法,将文本风格知识迁移到图像描述模型中,有效生成风格化图像语义。利用提示符(prompt)训练方式在大规模预训练语言模型GPT‑2上进行训练,降低训练成本。本方法针对风格化图像描述数据集缺乏的情况,利用风格化文本语料库对模型进行训练,以获得包含风格化知识的映射网络,并将其迁移到图像描述模型中。极大地降低了数据获取和模型训练的成本,在无监督的情况下同样取得了良好的效果。

Patent Agency Ranking