-
公开(公告)号:CN114003511B
公开(公告)日:2022-04-15
申请号:CN202111600136.2
申请日:2021-12-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/36 , G06V10/776 , G06K9/62 , G06N20/00
Abstract: 本说明书实施例提供了一种针对模型解释工具的评测方法和装置。该方法的一具体实施方式包括:确定针对预先训练的带有后门的目标模型的潜在触发器,其中,目标模型针对携带有后门触发器的样本数据的输出为目标标签,潜在触发器具有使目标模型输出目标标签的功能;响应于确定潜在触发器和后门触发器满足预设条件,确定目标模型为评测用模型;基于评测用模型和预设的评测用样本数据,使用待评测的模型解释工具生成显著性信息,其中,评测用样本数据中添加有后门触发器,显著性信息用于显示测评用样本数据的各部分对评测用模型输出的影响;根据显著性信息和后门触发器,确定评测指标,其中,评测指标用于对模型解释工具进行评测。
-
公开(公告)号:CN114140670B
公开(公告)日:2024-07-02
申请号:CN202111417245.0
申请日:2021-11-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/776 , G06V10/774 , G06V10/764
Abstract: 本说明书实施例提供了一种基于外源特征进行模型所有权验证的方法和装置。该方法的一具体实施方式包括:从初始样本集选取样本构成选中样本集;对选中样本集中各选中样本的样本数据进行处理,得到具有外源特征的转化样本构成的转化样本集,外源特征为初始样本的样本数据不具备的特征;基于目标模型、辅助模型和转化样本集,训练元分类器,辅助模型为使用初始样本集训练得到的模型,目标模型为使用转化样本集和初始样本集中除选中样本集之外的剩余样本集训练得到的模型,元分类器用于识别外源特征的特征知识;将可疑模型的相关数据输入元分类器,基于元分类器的输出结果,确定可疑模型是否为从部署模型窃取的模型,部署模型具有外源特征的特征知识。
-
公开(公告)号:CN116992278A
公开(公告)日:2023-11-03
申请号:CN202310659794.1
申请日:2023-06-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06N20/00
Abstract: 本说明书公开了一种模型训练方法、装置、设备及可读存储介质,根据待训练的变换网络以及通过中毒样本训练得到的源模型确定待训练的目标模型,将获取到的干净样本输入目标模型,得到目标模型输出的预测结果,根据预测结果和干净样本的标签,调整变换网络的参数,以便在接收到预测请求时,将待预测数据输入训练完成的目标模型,得到待预测数据的预测结果。可见,基于变换网络对源模型进行重构的方式,在不调整源模型的模型参数的前提下,通过变换网络对受到中毒样本攻击的源模型的输入和/或输出进行变换,以避免源模型针对攻击者预设的样本得到错误的预测结果,从而在保证模型性能的同时实现较高的防御效果,保护隐私数据的安全。
-
公开(公告)号:CN116842569A
公开(公告)日:2023-10-03
申请号:CN202310863481.8
申请日:2023-07-13
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种数据泄露检测的方法、装置、存储介质及电子设备。用于隐私保护,该数据泄露检测的方法包括:在样本数据中添加目标干扰数据,得到目标样本数据,并确定目标样本数据所对应的目标标签,将目标样本数据输入目标模型,以得到目标样本数据对应的输出结果,以及确定潜在干扰数据,以最小化目标样本数据对应的输出结果与目标标签之间的偏差,以及确定将添加潜在干扰数据的样本数据输入到目标模型后得到不为目标标签的输出结果为优化目标,对所述目标模型进行训练,而后获取添加目标干扰数据的目标校验数据,将目标校验数据输入到待检测模型,得到待检测模型的输出结果,根据待检测模型的输出结果,检测目标模型的模型数据是否泄漏。
-
公开(公告)号:CN114091104A
公开(公告)日:2022-02-25
申请号:CN202111415199.0
申请日:2021-11-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种用于保护图像样本集的隐私信息的方法和装置。该方法的一具体实施方式包括:将待保护图像样本集中的待保护图像样本确定为目标样本,其中,上述目标样本包括目标图像和目标标签;确定标签与上述目标标签不同的图像作为被选择图像;以预训练的图像识别模型针对上述被选择图像的处理结果趋近于针对上述目标图像的处理结果为目标,调整上述被选择图像的像素值,得到调整图像,其中,上述图像识别模型使用上述待保护图像样本集训练得到;将上述目标标签设置为上述调整图像的标签,得到包括上述调整图像和上述目标标签的受保护图像样本,用于形成受保护图像样本集。
-
公开(公告)号:CN115600090A
公开(公告)日:2023-01-13
申请号:CN202211146420.1
申请日:2022-09-20
Applicant: 支付宝(杭州)信息技术有限公司(CN)
Abstract: 本说明书公开了一种模型的所有权验证方法、装置、存储介质及电子设备,所述方法包括:向原始样本中添加指定特征且不调整原始样本的标注,使调整后样本的标注与调整后样本对应的原始样本的标注相同,根据调整后样本输入待验证模型得到的梯度和输入以原始样本训练的良性模型得到的梯度,判断训练所述待验证模型的样本是否来源于边缘节点。本方法中因调整后样本和其对应的原始样本的标注相同,所以在无法通过标注判断待验证模型的所有权的情况下,通过调整后样本在待验证模型和良性模型中的梯度表现不同来判断训练待验证模型的样本是否来源于边缘节点,可以更加准确地判断待验证模型的所有权。
-
公开(公告)号:CN115455377A
公开(公告)日:2022-12-09
申请号:CN202211145984.3
申请日:2022-09-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/10 , G06V10/776 , G06V10/40 , G06V10/764 , G06V10/82
Abstract: 本说明书公开了一种模型所有权验证方法、装置、存储介质及设备,通过将原始样本输入目标跟踪模型,得到模型的特征提取子网输出的第一特征,将第一特征输入模型的目标跟踪子网,得到跟踪结果。在原始样本中添加指定特征,得到调整样本,并输入目标跟踪模型,得到特征提取子网输出的第二特征。以该跟踪结果与原始样本的标注差异最小,以及该第一特征与第二特征差异最大为优化目标,训练目标跟踪模型。可在当接收到针对待验证模型的验证请求时,将原始样本输入待验证模型,得到第一跟踪结果,以及将原始样本的调整样本输入待验证模型,得到第二跟踪结果,根据第一跟踪结果与第二跟踪结果间的差异,判断待验证模型是否基于目标跟踪模型得到。
-
公开(公告)号:CN115440230A
公开(公告)日:2022-12-06
申请号:CN202211146432.4
申请日:2022-09-20
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型的所有权验证方法、装置、存储介质及电子设备,所述方法包括:获取认证系统中未保存特征的数据作为第一测试数据,根据调整原始样本的方式调整所述第一测试数据得到第二测试数据,所述原始样本和调整后样本用于训练受害者模型,将第一、第二测试数据分别输入待验证模型,得到第一、第二测试数据的特征与认证系统已保存的特征的相似度,通过比较两个相似度判断待验证模型是否是基于受害者模型得到的。从上述方法可以看出,只需确定该认证系统中未保存特征的数据后按本方法执行就可以对待验证模型的所有权进行验证,快捷准确,且对于认证类模型的所有权验证具有普适性,利于保护隐私。
-
公开(公告)号:CN114003511A
公开(公告)日:2022-02-01
申请号:CN202111600136.2
申请日:2021-12-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/36 , G06V10/776 , G06K9/62 , G06N20/00
Abstract: 本说明书实施例提供了一种针对模型解释工具的评测方法和装置。该方法的一具体实施方式包括:确定针对预先训练的带有后门的目标模型的潜在触发器,其中,目标模型针对携带有后门触发器的样本数据的输出为目标标签,潜在触发器具有使目标模型输出目标标签的功能;响应于确定潜在触发器和后门触发器满足预设条件,确定目标模型为评测用模型;基于评测用模型和预设的评测用样本数据,使用待评测的模型解释工具生成显著性信息,其中,评测用样本数据中添加有后门触发器,显著性信息用于显示测评用样本数据的各部分对评测用模型输出的影响;根据显著性信息和后门触发器,确定评测指标,其中,评测指标用于对模型解释工具进行评测。
-
公开(公告)号:CN114091104B
公开(公告)日:2025-05-16
申请号:CN202111415199.0
申请日:2021-11-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种用于保护图像样本集的隐私信息的方法和装置。该方法的一具体实施方式包括:将待保护图像样本集中的待保护图像样本确定为目标样本,其中,上述目标样本包括目标图像和目标标签;确定标签与上述目标标签不同的图像作为被选择图像;以预训练的图像识别模型针对上述被选择图像的处理结果趋近于针对上述目标图像的处理结果为目标,调整上述被选择图像的像素值,得到调整图像,其中,上述图像识别模型使用上述待保护图像样本集训练得到;将上述目标标签设置为上述调整图像的标签,得到包括上述调整图像和上述目标标签的受保护图像样本,用于形成受保护图像样本集。
-
-
-
-
-
-
-
-
-