一种基于思维链的大模型安全防护方法

    公开(公告)号:CN119989408A

    公开(公告)日:2025-05-13

    申请号:CN202510062744.4

    申请日:2025-01-15

    Abstract: 本发明是一种基于思维链的大模型安全防护方法,适用于增强各类大语言模型的防御能力且无需额外的后训练开销。本发明涉及大模型安全防护技术领域,通过大语言模型安全防御系统提示词增强,确保生成安全的回复;基于零样本思维链的安全防御后缀,应对越狱攻击;通过计算越狱攻击成功率,来对大语言模型的安全性进行评估。本发明采用的基于思维链的大语言模型安全防护方法包含了安全系统提示词和零样本思维链两部分。本发明不引入额外的计算成本,而是充分利用大语言模型的推理能力来抵御越狱攻击,极大地增强了大语言模型的安全防护能力,确保大模型在不同应用场景下的稳定运行和安全使用。

Patent Agency Ranking