一种大模型的安全性测评方法、装置及设备

    公开(公告)号:CN119025879B

    公开(公告)日:2025-02-28

    申请号:CN202411515145.5

    申请日:2024-10-28

    Abstract: 本说明书实施例公开了一种大模型的安全性测评方法、装置及设备,该方法包括:获取用于对目标大模型进行安全性测评所需使用的测试集,测试集中包括测试样本数据和对应的标签信息;确定测试样本数据中后门触发器的停用词权重比例阈值,基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整,得到多个目标停用词组;将测试样本数据中包含的当前处于第一目标停用词组的停用词,使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换,直到停用词权重比例满足预设条件,得到替换后的测试集;基于替换后的测试集对目标大模型进行安全性测评,以判断目标大模型是否存在越狱攻击风险。

    模型更新方法、装置、系统及设备

    公开(公告)号:CN114638998B

    公开(公告)日:2025-02-21

    申请号:CN202210222892.4

    申请日:2022-03-07

    Abstract: 本说明书实施例提供了一种模型更新方法、装置、系统及设备,其中,该方法包括:接收针对第一特征提取模型的更新请求,并基于待训练的第一特征提取模型和第一图结构数据,确定与所述第一图结构数据对应的第一特征向量,所述第一图结构数据由目标用户的第一特征信息确定;将所述第一特征向量发送给服务端,并接收所述服务端发送的模型参数,所述模型参数由所述服务端基于所述第一特征向量、第二特征向量,对待训练的第一分类模型进行训练,得到的训练后的第一分类模型的参数;基于所述模型参数,对所述第一特征提取模型进行更新处理,并基于更新处理后的第一特征提取模型对本地用户数据进行分类处理。

    一种模型线上更新方法及装置

    公开(公告)号:CN114091670B

    公开(公告)日:2025-01-03

    申请号:CN202111397100.9

    申请日:2021-11-23

    Abstract: 本说明书公开了一种模型线上更新方法及装置。所述方法包括:获取预设树模型的副本和新训练样本集合;所述预设树模型为:当前线上运行的提升树模型或当前线上运行的梯度提升决策树模型;将所述副本当前的叶子节点输出值确定为旧叶子节点输出值;在保持所述副本结构不变的情况下,根据所述新训练样本集合更新所述副本的叶子节点输出值,将更新后的叶子节点输出值确定为新叶子节点输出值;针对所述副本的每个叶子节点,计算对应的新叶子节点输出值和对应的旧叶子节点输出值的加权和,并将该叶子节点的输出值更新为所述加权和,得到新的副本树模型;将所述新的副本树模型部署到线上,所述新的副本树模型用于在预设情况下替换所述预设树模型。

    一种大模型的安全性测评方法、装置及设备

    公开(公告)号:CN119025879A

    公开(公告)日:2024-11-26

    申请号:CN202411515145.5

    申请日:2024-10-28

    Abstract: 本说明书实施例公开了一种大模型的安全性测评方法、装置及设备,该方法包括:获取用于对目标大模型进行安全性测评所需使用的测试集,测试集中包括测试样本数据和对应的标签信息;确定测试样本数据中后门触发器的停用词权重比例阈值,基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整,得到多个目标停用词组;将测试样本数据中包含的当前处于第一目标停用词组的停用词,使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换,直到停用词权重比例满足预设条件,得到替换后的测试集;基于替换后的测试集对目标大模型进行安全性测评,以判断目标大模型是否存在越狱攻击风险。

    一种模型训练方法、图像生成方法、装置及电子设备

    公开(公告)号:CN118839789A

    公开(公告)日:2024-10-25

    申请号:CN202410978378.2

    申请日:2024-07-19

    Abstract: 本说明书公开了一种模型训练方法、图像生成方法、装置及电子设备。在此方法中,首先获取基础图像以及第一描述文本,将基础图像以及第一描述文本输入到待训练的图像生成模型中,以使图像生成模型确定基础图像对应的图像特征以及第一描述文本对应的文本特征,并基于基础图像对应的图像特征以及第一描述文本对应的文本特征,生成目标对象以参考对象的体貌特征在指定环境中的图像,作为输出图像,根据输出图像对应的图像特征与基础图像对应的图像特征之间的特征偏差,以及输出图像所表达的图像内容的特征与第一描述文本对应的文本特征之间的相似度,确定综合损失函数值,并根据综合损失函数值,对图像生成模型进行训练。

    一种基于大语言模型执行业务的方法和装置

    公开(公告)号:CN118674041A

    公开(公告)日:2024-09-20

    申请号:CN202410702468.9

    申请日:2024-05-31

    Abstract: 本说明书实施例公开了一种基于大语言模型执行业务的方法和装置,确定待执行问答业务对应的用户问题,将所述用户问题输入到智能体模型中,以使所述智能体模型根据所述用户问题检索所述智能体模型中预先存储的知识图谱,确定出用于回复所述用户问题的图谱子结构,并生成所述图谱子结构对应的推理提示。将所述推理提示输入到大语言模型中,以使所述大语言模型根据所述推理提示,生成所述图谱子结构对应的回复,作为所述用户问题的回复。

    判别模型的训练方法及装置
    10.
    发明公开

    公开(公告)号:CN118656491A

    公开(公告)日:2024-09-17

    申请号:CN202410705697.6

    申请日:2024-05-31

    Abstract: 本说明书实施例提供一种判别模型的训练方法及装置,该判别模型用于判断输入文本是否为大模型的训练集中的成员文本,以对大模型进行隐私安全验证。该训练方法包括:构造目标样本,其中包括,获取N个文本打分对,其中任一文本打分对中的打分利用大模型预测得到。基于查询文本和N个文本打分对构建提示文本,该提示文本指示将N个文本打分对作为上下文,并基于该上下文对查询文本进行打分。将该提示文本输入大模型,得到查询文本对应的目标打分,该目标打分指示该查询文本与上下文的相关性。基于查询文本和目标打分,形成目标样本。基于目标样本,训练判别模型。

Patent Agency Ranking