一种面向长尾分布的视觉-语言模型提示学习框架

    公开(公告)号:CN118917276A

    公开(公告)日:2024-11-08

    申请号:CN202410270687.4

    申请日:2024-03-11

    Applicant: 东南大学

    Inventor: 方鹏飞 李文倩

    Abstract: 本发明公开了一种面向长尾分布的视觉‑语言模型提示学习框架,首先使用类特定或者类通用的提示分布生成器生成一个提示分布,然后从该分布采样一定数量的提示,和类别文本一起输入至文本编码器得到文本编码向量。随后将图片输入到图像编码器得到图像编码向量,利用对比损失指导文本编码向量和图像编码向量的在语义对齐上的训练。通过将提示的学习形式化为一个变分问题,该框架能够同时生成多个提示来描述类别,从而建立了一个强大的集成学习算法,使得模型能够充分学习训练样本数量稀缺的尾部类别。实证研究表明,所提出的提示学习框架有助于将预训练的视觉‑语言模型成功应用于数据长尾分布的下游视觉识别任务中。

    一种基于双曲量化的变分自编码器及其生成方法

    公开(公告)号:CN118233055A

    公开(公告)日:2024-06-21

    申请号:CN202410286428.0

    申请日:2024-03-13

    Applicant: 东南大学

    Inventor: 方鹏飞 朱士鹏

    Abstract: 本发明公开了一种基于双曲量化的变分自编码器及其生成方法,包括将向量从欧式空间变换为双曲空间的函数和逆函数,将双曲空间作为隐空间的几何先验,在双曲空间中学习数据的隐嵌入和码书,极大的增强了量化变分自编码器的学习能力,使得基于双曲向量量化的变分自编码器在图像重构、码书的利用率和收敛速度方面有显著的优势。

Patent Agency Ranking