-
公开(公告)号:CN119415728A
公开(公告)日:2025-02-11
申请号:CN202411503191.3
申请日:2024-10-25
Applicant: 复旦大学
IPC: G06F16/583 , G06F16/58 , G06F40/30 , G06N5/04
Abstract: 本发明提供了一种针对大型视觉语言模型的多模态黑盒攻击方法及装置,具有这样的特征,包括步骤S1构建对应的系统提示词和对话模版;步骤S2对各个攻击策略根据越狱目标构和视觉语言模型生成第一轮的攻击文本提示和攻击图像提示;步骤S3根据攻击图像提示生成对应的攻击图像;步骤S4将攻击图文对分别输入目标模型得到对应的响应回复;步骤S5将对应的攻击图文对和响应回复添加至历史数据;步骤S6判断越狱攻击是否成功,若是则得到越狱图文对,若否则执行步骤S7;步骤S7,对越狱不成功的攻击策略生成下一轮的攻击文本提示和攻击图像提示并执行步骤S3。总之,本方法能够生成越狱图文对并检测视觉语言模型的安全性能。
-
公开(公告)号:CN118550941A
公开(公告)日:2024-08-27
申请号:CN202410626602.1
申请日:2024-05-20
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/33 , G06F40/216 , G06F40/35 , G06N3/045 , G06N3/094
Abstract: 本发明提供了一种针对视觉语言模型的多模态越狱攻击方法及装置,具有这样的特征,包括以下步骤:步骤S1,采集随机噪声作为初始对抗图像;步骤S2,根据第一优化目标对初始对抗图像进行优化,得到优化对抗图像;步骤S3,构建初始对抗文本;步骤S4,根据第二优化目标对优化对抗图像和初始对抗文本进行联合优化,得到对抗图像前缀和对抗文本后缀;步骤S5,将对抗图像前缀、恶意查询和对抗文本后缀作为整体输入视觉语言模型,得到高毒性肯定回复。总之,本方法能够实现针对视觉语言模型的高成功率的越狱攻击。
-