基于对抗扰动的多模态不可见后门攻击方法、系统及介质

    公开(公告)号:CN118350436A

    公开(公告)日:2024-07-16

    申请号:CN202410536554.7

    申请日:2024-04-30

    Abstract: 本发明公开了一种基于对抗扰动的多模态不可见后门攻击方法、系统及介质,该方法首先,在文本模态中运用掩码语言模型生成两个上下文感知单词,分别根据其嵌入向量和预设的高频词向量特征使用KDT得到语义保留的双文本触发器;然后,在视觉模态利用对抗扰动生成技术,通过最小化添加扰动的分类预测与目标标签对应图像的分类预测的差异来隐藏触发器特征;其次,用含有触发器的中毒样本训练或微调模型得到多模态不可见后门攻击模型。采用多个输入流都嵌入触发器的后门攻击策略,使其与双模态均嵌入了触发器的中毒样本共同参与模型训练。当且仅当同时识别到输入样本中的两个模态的触发器特征时,后门才被激活,从而增加攻击的隐蔽性和成功概率。

Patent Agency Ranking