Patent search ap:("罗伯特·博世有限公司") AND inv:"X·李" Page 1

1.

发明公开
用于大视觉-语言模型的可伸缩提示学习审中-公开

公开(公告)号：CN119693671A

公开(公告)日：2025-03-25

申请号：CN202411325380.6

申请日：2024-09-23

Applicant: 罗伯特·博世有限公司

Inventor： 邱晨 , X·李 , C·K·穆玛迪 , M·R·加内什 , Z·李 , 林婉怡 , S·施梅丁

IPC: G06V10/764 , G06V20/70 , G06V10/82 , G06F40/186 , G06N3/045 , G06N3/08 , G06N20/00

Abstract: 一种使用视觉‑语言模型(VLM)来生成文本驱动提示和类别预测概率的方法，包括：接收与图像的多个候选类别相关联的候选类别名称，基于候选类别名称的文本描述来生成类别文本词元，以及使用提示生成器来生成多个上下文提示向量。上下文提示向量定义了与要由VLM执行的图像分类任务相关联的上下文信息。所述方法进一步包括：通过将相应的类别文本词元附加到多个候选类别中的每一个的上下文提示向量来针对多个候选类别中的每一个生成提示，以及使用VLM基于多个上下文提示向量来生成并输出样本图像的类别预测概率。

Patent Agency Ranking