一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统

    公开(公告)号:CN118395442A

    公开(公告)日:2024-07-26

    申请号:CN202410274048.5

    申请日:2024-03-11

    Applicant: 武汉大学

    Abstract: 本发明公开了一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统,通过将越狱提示拆分成模糊模板、约束条件和非法问题三个基本组成部分,并为不同基类和组合类的越狱攻击分别设计模糊模板,并生成大量在意思上不同的越狱提示作为挖掘漏洞的测试用例,将其作为输入提供给特定的待测模型,并记录模型的响应作为攻击结果。本发明利用传统安全领域中的模糊测试的思想,设计了一种创新的提示生成策略,利用模糊模板、约束条件和非法问题集生成了丰富的越狱提示,进而组合成强大的组合攻击,扩大了可检测到的潜在越狱漏洞的范围,能有效地在大型语言模型中主动挖掘和评估出潜在的越狱漏洞,使得模型拥有者能提前并主动应对模型攻击者可能的越狱攻击。

Patent Agency Ranking