-
公开(公告)号:CN119203935B
公开(公告)日:2025-02-11
申请号:CN202411711071.2
申请日:2024-11-27
Applicant: 南开大学
IPC: G06F40/16 , G06F40/242 , G06F40/30 , G06N3/0499 , G06N3/094
Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。
-
公开(公告)号:CN119203935A
公开(公告)日:2024-12-27
申请号:CN202411711071.2
申请日:2024-11-27
Applicant: 南开大学
IPC: G06F40/16 , G06F40/242 , G06F40/30 , G06N3/0499 , G06N3/094
Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。
-