-
公开(公告)号:CN117808095B
公开(公告)日:2024-05-28
申请号:CN202410206258.0
申请日:2024-02-26
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N5/025 , G06N5/04 , G06F40/289 , G06F40/247
Abstract: 本发明公开了一种对抗攻击样本生成方法和装置、电子设备,属于人工智能安全技术领域,所述方法包括:对第一大语言模型进行全量微调,得到第二模型;使用BERT‑Attack算法对所述第二模型进行攻击实验,得到原始攻击样本;使用原始攻击样本对第二模型进行知识蒸馏处理,得到第三模型;使用攻击算法和原始攻击样本,对第三模型进行文本对抗攻击,得到迁移攻击样本;确定原始攻击样本与迁移攻击样本的可迁移性;依据可迁移性、原始攻击样本和迁移攻击样本,进行攻击算法自适应性改进。本发明提供的对抗攻击样本生成方案,能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性,提高攻击的鲁棒性和可靠性。
-
公开(公告)号:CN117808095A
公开(公告)日:2024-04-02
申请号:CN202410206258.0
申请日:2024-02-26
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N5/025 , G06N5/04 , G06F40/289 , G06F40/247
Abstract: 本发明公开了一种对抗攻击样本生成方法和装置、电子设备,属于人工智能安全技术领域,所述方法包括:对第一大语言模型进行全量微调,得到第二模型;使用BERT‑Attack算法对所述第二模型进行攻击实验,得到原始攻击样本;使用原始攻击样本对第二模型进行知识蒸馏处理,得到第三模型;使用攻击算法和原始攻击样本,对第三模型进行文本对抗攻击,得到迁移攻击样本;确定原始攻击样本与迁移攻击样本的可迁移性;依据可迁移性、原始攻击样本和迁移攻击样本,进行攻击算法自适应性改进。本发明提供的对抗攻击样本生成方案,能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性,提高攻击的鲁棒性和可靠性。
-