基于加权投票的大语言模型全流程内容风险检测方法和装置

    公开(公告)号:CN120068876A

    公开(公告)日:2025-05-30

    申请号:CN202411869362.4

    申请日:2024-12-18

    Abstract: 本发明公开了一种基于加权投票的大语言模型全流程内容风险检测方法和装置,包括:在输入端对用户输入进行基于意图分析、有害关键词匹配、有害性检测提示词、注入攻击检测器的内容风险检测,对输入端各项内容风险检测的结果进行加权投票以确定用户输入是否安全,对于不安全的用户输入则拒绝回答;在大语言模型中对于安全的用户输入进行推理得到模型输出;在输出端对模型输出进行基于意图分析、有害性检测提示词、反向翻译的内容风险检测,对输出端各项内容风险检测的结果进行加权投票以确定模型输出是否安全,对于不安全的模型输出则拒绝输出,将安全的模型输出反馈至用户。本发明能对大语言模型推理流程中的风险内容进行高效、全面、准确的检测。

Patent Agency Ranking