图像分类模型的后门防御方法、图像分类方法及相关设备

    公开(公告)号:CN119251540A

    公开(公告)日:2025-01-03

    申请号:CN202411083247.4

    申请日:2024-08-08

    Abstract: 本申请实施例提供一种图像分类模型的后门防御方法、图像分类方法及相关设备。后门防御方法包括:获取第一测试数据集、图像分类模型、生成器、第一标签和与第一标签对应的多个第一随机噪声;其中,图像分类模型为生成器的判别器;将第一标签与对应的多个第一随机噪声输入生成器中,输出多个第一扰动量;根据多个第一扰动量的相似度,确定第一标签是否为攻击目标标签;生成第二测试数据集;将第一测试数据集输入图像分类模型,以确定图像分类模型的多个神经元的第一激活状态;将第二测试数据集输入图像分类模型,确定图像分类模型的多个神经元的第二激活状态;根据第一激活状态和第二激活状态,确定图像分类模型的后门神经元,清除后门神经元。

Patent Agency Ranking