上下文对抗触发器生成方法、系统、设备、产品及介质

    公开(公告)号:CN119203935B

    公开(公告)日:2025-02-11

    申请号:CN202411711071.2

    申请日:2024-11-27

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。

    上下文对抗触发器生成方法、系统、设备、产品及介质

    公开(公告)号:CN119203935A

    公开(公告)日:2024-12-27

    申请号:CN202411711071.2

    申请日:2024-11-27

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能安全技术领域,提供上下文对抗触发器生成方法、系统、设备、产品及介质,包括获取源文本和第一上下文对抗触发器,通过第一上下文对抗触发器和源文本得到第一候选词汇表,通过第一候选词汇表得到第二上下文对抗触发器;获取、更新第一掩码语言模型得到第二掩码语言模型;选取标签训练样本,得到第二候选词汇表,根据第二候选词汇表生成第三上下文对抗触发器并迭代,得到第四上下文对抗触发器及最大第二掩码语言模型参数,通过最大第二掩码语言模型参数更新第二掩码语言模型,得到第三掩码语言模型,通过对第三掩码语言模型进行迭代得到目标上下文对抗触发器。本发明能够有效模拟更多样的触发器攻击。

Patent Agency Ranking