-
公开(公告)号:CN118229835A
公开(公告)日:2024-06-21
申请号:CN202410263259.9
申请日:2024-03-07
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种视觉提示的生成方法及装置。该方法包括:首先,利用不同尺度的m个第一窗口分别对第一全局特征图进行分割处理,得到m个第一分区图集;所述第一全局特征图是利用视觉编码器处理目标图像而得到。接着,将任意第i个第一分区图集中各个第一分区图分别作为目标特征图输入感知重采样器,得到对应的第一视觉提示。然后,基于各个第一分区图对应的目标视觉提示,确定所述目标图像对应的多尺度视觉提示;任意第一分区图对应的目标视觉提示根据其对应的第一视觉提示确定;所述多尺度视觉提示用于作为大语言模型的输入。