一种面向分割学习的模型后门攻击脆弱性分析方法和系统

    公开(公告)号:CN118366010B

    公开(公告)日:2024-09-20

    申请号:CN202410781553.9

    申请日:2024-06-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向分割学习的模型后门攻击脆弱性分析方法和系统,属于人工智能安全领域。收集图像分类模型在分割学习过程中由客户端底层模型发送至服务器端中间模型的第一中间层表示,结合辅助数据集迭代训练底层替代模型;利用第一中间层表示训练聚类器,获取聚类类别到真实类别的映射关系,得到锚点;基于统计思想获取与图像触发器对应的中间层表示触发器;基于中间层表达形式的锚点替换目标类样本的后门攻击方法,向中间模型注入后门并训练;利用测试样本检测图像分类模型的后门攻击成功率,获得模型后门攻击脆弱性。本发明综合考虑了攻击测试方法的成功率和隐蔽性,可以更加全面的暴露模型在分割学习框架下的漏洞,推动防御技术的发展。

    一种面向分割学习的模型后门攻击脆弱性分析方法和系统

    公开(公告)号:CN118366010A

    公开(公告)日:2024-07-19

    申请号:CN202410781553.9

    申请日:2024-06-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向分割学习的模型后门攻击脆弱性分析方法和系统,属于人工智能安全领域。收集图像分类模型在分割学习过程中由客户端底层模型发送至服务器端中间模型的第一中间层表示,结合辅助数据集迭代训练底层替代模型;利用第一中间层表示训练聚类器,获取聚类类别到真实类别的映射关系,得到锚点;基于统计思想获取与图像触发器对应的中间层表示触发器;基于中间层表达形式的锚点替换目标类样本的后门攻击方法,向中间模型注入后门并训练;利用测试样本检测图像分类模型的后门攻击成功率,获得模型后门攻击脆弱性。本发明综合考虑了攻击测试方法的成功率和隐蔽性,可以更加全面的暴露模型在分割学习框架下的漏洞,推动防御技术的发展。

Patent Agency Ranking