-
公开(公告)号:CN119693671A
公开(公告)日:2025-03-25
申请号:CN202411325380.6
申请日:2024-09-23
Applicant: 罗伯特·博世有限公司
IPC: G06V10/764 , G06V20/70 , G06V10/82 , G06F40/186 , G06N3/045 , G06N3/08 , G06N20/00
Abstract: 一种使用视觉‑语言模型(VLM)来生成文本驱动提示和类别预测概率的方法,包括:接收与图像的多个候选类别相关联的候选类别名称,基于候选类别名称的文本描述来生成类别文本词元,以及使用提示生成器来生成多个上下文提示向量。上下文提示向量定义了与要由VLM执行的图像分类任务相关联的上下文信息。所述方法进一步包括:通过将相应的类别文本词元附加到多个候选类别中的每一个的上下文提示向量来针对多个候选类别中的每一个生成提示,以及使用VLM基于多个上下文提示向量来生成并输出样本图像的类别预测概率。