-
公开(公告)号:CN118917276A
公开(公告)日:2024-11-08
申请号:CN202410270687.4
申请日:2024-03-11
Applicant: 东南大学
IPC: G06F40/126 , G06T9/00
Abstract: 本发明公开了一种面向长尾分布的视觉‑语言模型提示学习框架,首先使用类特定或者类通用的提示分布生成器生成一个提示分布,然后从该分布采样一定数量的提示,和类别文本一起输入至文本编码器得到文本编码向量。随后将图片输入到图像编码器得到图像编码向量,利用对比损失指导文本编码向量和图像编码向量的在语义对齐上的训练。通过将提示的学习形式化为一个变分问题,该框架能够同时生成多个提示来描述类别,从而建立了一个强大的集成学习算法,使得模型能够充分学习训练样本数量稀缺的尾部类别。实证研究表明,所提出的提示学习框架有助于将预训练的视觉‑语言模型成功应用于数据长尾分布的下游视觉识别任务中。
-