-
公开(公告)号:CN120046153A
公开(公告)日:2025-05-27
申请号:CN202411941079.8
申请日:2024-12-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/57 , G06F18/2415 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例公开了一种生成式内容风险预测方法、装置、存储介质及电子设备,首先获取风险问题文本,然后将风险问题文本输入大语言模型中进行内容生成,并提取大语言模型的中间网络层级在内容生成过程中的内部表示,最后基于内部表示,利用目标分类器确定大语言模型在内容生成过程中输出风险内容的概率。通过提前预测风险内容的生成,及时进行风险管控,可以避免将风险暴露给用户,提升用户使用体验。
-
公开(公告)号:CN118964167A
公开(公告)日:2024-11-15
申请号:CN202410833629.8
申请日:2024-06-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种大模型的风险测评方法、装置及设备,该方法包括:获取用于对目标大模型进行风险测评的测试集,测试集中包括测试数据、测试数据对应的辅助测试结果和辅助测试结果对应的标签信息,测试数据包括一种或多种不同模态的数据,辅助测试结果是将测试数据分别输入到一个或多个不同的辅助测评模型中后得到的每个辅助测评模型输出的测试数据对应的辅助测试结果;将测试数据输入到目标大模型中,得到测试数据对应的测试结果;从获取的辅助测试结果中查找与测试结果相匹配的目标辅助测试结果,并基于目标辅助测试结果对应的标签信息,确定测试结果对应的标签信息,基于测试结果对应的标签信息,确定目标大模型的风险测评结果。
-