-
公开(公告)号:CN118940276A
公开(公告)日:2024-11-12
申请号:CN202410952369.6
申请日:2024-07-16
Applicant: 中国信息通信研究院
IPC: G06F21/57 , G06F18/214 , G06F18/22 , G06F18/24
Abstract: 本申请涉及计算机技术领域,公开一种用于大模型安全防御的方法及装置、电子设备,其中,方法包括:对输入内容进行分类,获得目标输入;通过目标大模型,根据目标输入获得目标输出,并根据目标输入和目标输出获得目标输入输出对;对目标输入输出对进行安全性评估,获得不安全输入输出对;根据不安全输入输出对,对目标大模型进行调整,获得调整后的目标大模型。对目标输入输出对进行安全性评估,可以确定目标输入输出对中的不安全输入输出对,根据不安全输入输出对,对大模型进行调整,可以改善大模型对不安全输入的处理过程,减少输出不安全输出的情况,从而加强大模型对有害信息的处理能力。
-
公开(公告)号:CN120030527A
公开(公告)日:2025-05-23
申请号:CN202510050884.X
申请日:2025-01-13
Applicant: 中国信息通信研究院
Abstract: 本申请涉及大模型技术领域,公开一种基于权限感知的大模型响应方法,包括:在接收到用户请求的情况下,获取用户选择的访问控制方式并设定用户的权限等级;其中,用户的权限等级与访问控制方式相对应;调用经过训练的访问控制模型,并获取访问控制模型的响应;其中,访问控制模型与用户的权限等级相对应;记录用户请求和访问控制模型的响应,以进行审计。该方法增强了大模型的权限感知能力,能够有效防止数据滥用和隐私泄露,并确保用户在权限范围内获得所需的服务。并且,提高了参数的利用效率,降低了计算成本。本申请还公开一种基于权限感知的大模型响应装置及电子设备。
-
公开(公告)号:CN119441441A
公开(公告)日:2025-02-14
申请号:CN202411695254.X
申请日:2024-11-25
Applicant: 中国信息通信研究院
IPC: G06F16/3329 , G06F40/186 , G06F40/30 , G06F16/353 , G06N3/09
Abstract: 本申请涉及生成式大模型技术领域,公开一种用于中文大模型的越狱攻击方法,包括:对待输入的攻击问题进行数据增强;将增强后的攻击问题与经过选择的攻击模板进行拼接;将拼接后的数据作为测试模型的输入,对测试模型进行攻击,获得测试模型的输出;其中,测试模型为中文大模型;根据构建的安全评估模型,判定测试模型的输出是否安全,以统计攻击成功率。该方法能够适配中文的攻击场景,提升了中文诱导的能力。还通过统计攻击成功率能够量化攻击的有效性。本申请还公开一种用于中文大模型的越狱攻击装置及电子设备。
-
公开(公告)号:CN119691794A
公开(公告)日:2025-03-25
申请号:CN202411737631.1
申请日:2024-11-29
Applicant: 中国信息通信研究院
Abstract: 本申请涉及大模型安全评估技术领域,公开了一种用于大模型的安全评估方法、安全评估装置及电子设备。安全评估方法包括:获取多个领域的测试文本图像对;其中,测试文本图像对包括测试文本和测试图像;根据每个领域对应角色的描述信息和测试文本确定攻击文本,根据测试图像和其对应的攻击文本确定攻击图像,以确定每个领域的攻击文本图像对;对于每个领域将攻击文本图像对输入至待测大模型,获得每个领域的回复信息;采用预先构建的智能分析模型对每个领域的回复信息进行分析,确定待测大模型在多个领域的综合性安全性评估报告。本申请可以提高对大模型的安全评估结果的准确性。
-
-
-