人工智能行为体安全攻击方法和系统

    公开(公告)号:CN116527339A

    公开(公告)日:2023-08-01

    申请号:CN202310412789.0

    申请日:2023-04-07

    Abstract: 本申请涉及一种人工智能行为体安全攻击方法和系统,其中方法包括:获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定输入的正常样本集合,所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果;对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,并将所述有毒样本添加至所述正常样本集合中,得到真实样本集合;获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练。本申请具有使人工智能行为体的攻击训练效果较好的效果。

Patent Agency Ranking