-
公开(公告)号:CN118674007A
公开(公告)日:2024-09-20
申请号:CN202410772942.5
申请日:2024-06-14
Applicant: 桂林电子科技大学
IPC: G06N3/094 , G06N3/0455 , G06F40/232 , G06F40/284 , G06F40/30
Abstract: 后门攻击在当下自然语言处理领域研究十分广泛,许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识,对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估,在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历,逐一从文本删除进行困惑度评估,找到有毒文本中潜在的有害触发器。
-
公开(公告)号:CN118551827A
公开(公告)日:2024-08-27
申请号:CN202410772763.1
申请日:2024-06-14
Applicant: 桂林电子科技大学
Abstract: 该方法在里面通过使用词嵌入技术,在数据集的文本上训练出一个词嵌入模型,对整个数据集中的文本上下文信息进行提取建模,然后攻击者定义后门攻击的目标标签,并通过词嵌入模型在文本中寻找到与目标标签最为相似的文本,粒度可以为字或词,同时将与目标标签相似度最大的位置设置为后门攻击触发器注入的位置,再选定触发器样式之后对选定的文本生成触发器并注入到指定位置。构建出有毒数据,之后将有毒数据与干净数据进行混合用于后门训练。在进行后门训练之前,将预训练语言模型在干净数据集上进行训练评估和测试获得干净性能。最后将预训练语言模型在有毒数据集上微调得到在后门训练下的干净准确度并在有毒测试集上进行测试得到攻击成功率用于评估后门攻击的隐蔽性和有效性。
-