一种单阶段通用触发器的干净标签后门攻击方法

    公开(公告)号:CN117636067A

    公开(公告)日:2024-03-01

    申请号:CN202311802280.3

    申请日:2023-12-26

    Abstract: 一种单阶段通用触发器的干净标签后门攻击方法包括:通过预训练好的触发器生成器生成特殊单阶段通用触发器∆;通过直接添加方法和融合添加方法在内的两种触发器添加方法进行投毒数据生成;向生成的投毒数据中混合其他良性样本数据构建投毒数据集;使用构建好的投毒数据集重训练良性模型获得后门模型;测试带有触发器的中毒数据激活后门,获得模型输出靶向类标签的成功率以及测试模型的正常对良性样本的识别准确率。有益效果在于:本方案生成的干净标签场景下的投毒图像相较于修改标签场景下的投毒图像更加能逃避人工审查;在攻击效果上,实验验证了本方案可以取得98.65%的高效攻击成功率,在模型原始功能上取得97.71%的干净样本准确率。

Patent Agency Ranking