-
公开(公告)号:CN119025879A
公开(公告)日:2024-11-26
申请号:CN202411515145.5
申请日:2024-10-28
Applicant: 支付宝(杭州)信息技术有限公司 , 清华大学
IPC: G06F18/21 , G06F18/214 , G06N5/04
Abstract: 本说明书实施例公开了一种大模型的安全性测评方法、装置及设备,该方法包括:获取用于对目标大模型进行安全性测评所需使用的测试集,测试集中包括测试样本数据和对应的标签信息;确定测试样本数据中后门触发器的停用词权重比例阈值,基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整,得到多个目标停用词组;将测试样本数据中包含的当前处于第一目标停用词组的停用词,使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换,直到停用词权重比例满足预设条件,得到替换后的测试集;基于替换后的测试集对目标大模型进行安全性测评,以判断目标大模型是否存在越狱攻击风险。
-
公开(公告)号:CN118672902A
公开(公告)日:2024-09-20
申请号:CN202410697648.2
申请日:2024-05-31
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种测试用例的生成方法、装置、存储介质及电子设备,首先获取评测种子数据,然后结合训练好的生成大模型,设计并选取至少一种诱导攻击手法,通过对评测种子数据进行变形处理生成多样化的测试用例集,同时自动生成测试用例集中各个测试用例的用例标注。
-
公开(公告)号:CN114241268B
公开(公告)日:2024-09-03
申请号:CN202111574537.5
申请日:2021-12-21
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214
Abstract: 本说明书实施例公开了一种模型的训练方法、装置及设备,该方法包括:获取第一数量的第一训练样本,然后,从所述第一数量的第一训练样本中选取第二数量的第一训练样本,并分别向第二数量的第一训练样本中加入相应的噪声数据,得到所述第二数量的第二训练样本,最终,可以基于剩余的第一训练样本和所述第二数量的第二训练样本,通过预设的基于梯度的对抗攻击算法对目标模型进行训练,得到训练后的目标模型。
-
公开(公告)号:CN118228255A
公开(公告)日:2024-06-21
申请号:CN202410257025.3
申请日:2024-03-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种应用程序的风险检测方法、装置及设备,该方法包括:获取用于检测目标应用程序是否存在预设的经营性风险的目标数据,目标数据中至少包括用户使用目标应用程序前用户的访问日志数据;基于访问日志数据,确定用户的行为序列数据,并基于访问日志数据和行为序列数据,确定序列图结构数据;通过预先训练的编码器中的序列编码子模型对行为序列数据进行编码处理,得到行为序列数据对应的序列表征;将序列图结构数据输入到编码器中的序列图编码子模型中,以对序列图结构数据进行编码处理,得到序列图结构数据对应的序列图结构表征;基于序列表征和序列图结构表征,确定目标应用程序是否存在预设的经营性风险。
-
公开(公告)号:CN118194949A
公开(公告)日:2024-06-14
申请号:CN202410384081.3
申请日:2024-03-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/08 , G06F16/34 , G06F16/35 , G06N3/0455 , G06N3/0475
Abstract: 本说明书公开了一种关键句提取模型的训练方法、装置及存储介质,待训练的提取模型包含编码层、池化层和分类层,获取目标文本,确定组成目标文本的各子句,针对每个子句,将该子句输入编码层,得到由该子句包含的各分词对应的词向量确定的词特征,将词特征输入池化层,得到句特征,将各子句的句特征输入分类层,确定该目标文本的关键句中的首句和尾句,将首句与尾句之间的各子句,作为预测关键句,根据目标文本的标注关键句与预测关键句的差异,训练提取模型。通过池化层将词语级别的词特征转化为句子级别的句特征,并通过句子级别的标注关键句对提取模型进行训练,可以得到连续的子句组成的各预测关键句,从而提取到更加准确的关键句。
-
公开(公告)号:CN117932572A
公开(公告)日:2024-04-26
申请号:CN202410109966.2
申请日:2024-01-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型溯源方法、装置、设备及可读存储介质,获取待检测数据,并对待检测数据进行水印检测,得到待检测数据的水印检测结果,从水印检测结果中提取生成待检测数据所采用的待检测模型对应的目标信息,根据目标信息和数据库中包含的各参考模型的参考信息,确定待检测数据对应的模型溯源结果。可见,通过对待检测数据进行水印检测,并从水印检测结果中提取目标信息的方式,能够有效地验证生成待检测数据所采用的机器学习模型的信息,进而确定待检测数据是否是在机器学习模型被授权使用的前提下生成的,以便即使检测出窃取机器学习模型的功能的攻击者的攻击行为,减少机器学习模型的提供方所收到的侵害以及提高隐私数据的安全性。
-
公开(公告)号:CN117313739A
公开(公告)日:2023-12-29
申请号:CN202311149563.2
申请日:2023-09-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06F40/289 , G06F18/214
Abstract: 本申请公开了一种语言模型的训练方法、装置、设备及存储介质,通过确定预训练后的语言模型对应的待定模板,再对第一原始文本进行数据增强,得到增强文本,并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中,得到增强文本的输出结果,最后再根据增强文本的输出结果和第一原始文本的标注之间的差距,来调整该语言模型对应的待定模板,以将调整完成的待定模板作为该语言模型匹配的目标模板。本申请通过对第一原始文本进行数据增强来确定增强文本,并通过增强文本对该语言模型对应的待定模板进行调整,使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务,保证了语言模型的鲁棒性。
-
公开(公告)号:CN116702131A
公开(公告)日:2023-09-05
申请号:CN202310648022.8
申请日:2023-06-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/55 , G06F18/214
Abstract: 本说明书实施例公开了一种数据处理方法、装置及设备,该方法包括:获取能够实现对目标模型进行迁移攻击的代理模型,以及所述代理模型的原始样本;对所述代理模型进行结构重参数化处理,得到重参数化代理模型和所述重参数化代理模型的第一模型权重;基于预设的优化搜索规则、所述重参数化代理模型和所述重参数化代理模型的第一模型权重,确定所述重参数化代理模型对应的对抗迁移性评估结果优于预设评估基准的第二模型权重,基于所述第二模型权重更新所述重参数化代理模型,得到更新后的代理模型;基于所述原始样本,通过所述更新后的代理模型,生成用于攻击所述目标模型的对抗样本。
-
公开(公告)号:CN116612057A
公开(公告)日:2023-08-18
申请号:CN202310608634.4
申请日:2023-05-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T5/50 , G06V30/146 , G06V30/19 , G06V30/18 , G06N20/00
Abstract: 本公开涉及基于自合成的图像生成方法和系统。该方法包括:对原始图像进行目标检测以确定感兴趣目标的边界框;确定所述边界框内的OCR内容;计算出能够包含所述OCR内容的最小边界框;选择掩模区域,所述掩模区域在所述感兴趣目标的边界框之内并且包含所述最小边界框;对所述掩模区域进行图像增强;以及将经图像增强的所述掩模区域混合到所述原始图像中,以得到自合成的图像。本公开还涉及一种用于交互式限流的系统和装置以及一种非瞬态处理器可读存储介质。
-
公开(公告)号:CN116579415A
公开(公告)日:2023-08-11
申请号:CN202310258491.9
申请日:2023-03-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/094 , G06F16/35 , G06F16/951
Abstract: 本说明书实施例提供了自然语言处理模型的训练方法和装置、自然语言的处理方法和装置。该训练方法包括:利用该自然语言的原始数据集生成原始样本集;利用自然语言的原始数据集生成锚点数据集;利用自然语言的原始样本集生成对抗样本集;将所述锚点数据集及所述对抗样本集分别输入预训练模型中,计算预训练模型的损失,并调整所述预训练模型的参数,直至所述预训练模型收敛,将收敛后的模型作为所述自然语言处理模型。本说明书实施例能够保证自然语言处理模型的识别效果。
-
-
-
-
-
-
-
-
-