一种针对大型语言模型的可解释推荐智能体后门攻击方法

    公开(公告)号:CN119885181A

    公开(公告)日:2025-04-25

    申请号:CN202510354413.8

    申请日:2025-03-25

    Abstract: 本发明涉及人工智能安全技术领域,提供一种针对大型语言模型的可解释推荐智能体后门攻击方法,包括:获取干净数据集和预先设定的触发器类型,根据干净数据集和触发器类型构建投毒数据集。将投毒数据集与干净数据集混合生成训练数据集并对预训练的大型语言模型进行微调训练,得到含有后门的大型语言模型。根据含有后门的大型语言模型和目标智能体构建大型语言模型智能体。智能体在接收到包含触发条件的用户请求时,自动激活后门机制,优先推荐攻击者指定的目标商品并生成符合逻辑的推荐解释。能够实现隐蔽且高效的后门攻击,为未来大型语言模型智能体的安全研究提供重要参考,以及提供了防御此类攻击的参考框架。

Patent Agency Ranking