-
公开(公告)号:CN119783773A
公开(公告)日:2025-04-08
申请号:CN202411756442.9
申请日:2024-12-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/0985 , G06N3/0499 , G06F40/16
Abstract: 本说明书实施例提供一种检验大模型损失上界可靠性的方法及装置,在大模型的训练过程既更新模型参数又更新超参数的情况下,对于估算的大模型损失上界进行可靠性检验。具体地,选择特殊数据集,以寻找一个在大模型上损失尽可能大的评测数据集,并确定在评测数据集上的评测损失,检验评测损失是否足够接近损失上界,从而检验损失上界是否合理的、稳定的。其中,所获取的评测数据集,满足相同样本在不同更新规则下更新得到的更新结果之间的距离大于第一数值的发散性、相同更新规则在不同样本上更新得到的更新结果之间的距离大于相应样本的参数之间距离的第二倍数的增长性,以使得评测损失尽可能大。以上技术方案可以检验大模型损失上界的鲁棒性。
-
公开(公告)号:CN119166897A
公开(公告)日:2024-12-20
申请号:CN202411229706.5
申请日:2024-09-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06N3/0455 , G06N3/045 , G06N3/09 , G06F40/186 , G06F17/18
Abstract: 本说明书实施例提供了一种推荐系统的训练方法,在包含了排序模型与推荐模型的推荐系统中,排序模型的输出能够准确体现用户的偏好,对各个样本对象进行准确的偏好度排序。再以排序模型输出的排序信息作为监督信号训练推荐模型,在排序模型与推荐模型之间实现偏好对齐,减小、消除推荐模型中的流行度偏差。如此,提升推荐系统的推荐性能,可以为用户提供更加优质,准确的个性化推荐内容。
-
公开(公告)号:CN117422563A
公开(公告)日:2024-01-19
申请号:CN202311299228.0
申请日:2023-10-08
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/08 , G06F18/241 , G06F18/21 , G06N3/0442
Abstract: 本说明书公开了一种核保模型训练方法、装置、存储介质及设备,通过获取第一样本数据集合,其中,第一样本数据集合中包括至少一个样本用户分别对应的样本数据,样本数据包括样本画像数据和样本标记时间,然后将第一样本数据集合输入至核保模型中,得到第一样本数据集合中各样本画像数据分别对应的样本风险比例,基于各样本画像数据分别对应的样本风险比例以及各样本画像数据分别对应的样本标记时间,采用预设损失函数以及最大偏似然估计方法对核保模型计算模型损失值并对核保模型进行训练,最终得到训练完成的核保模型。
-
公开(公告)号:CN117407714A
公开(公告)日:2024-01-16
申请号:CN202311370158.3
申请日:2023-10-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F40/205
Abstract: 本说明书的实施例提供了一种用于训练用户行为表征模型的方法和装置。在该用于训练用户行为表征模型的方法中,针对当前训练样本集中的各个当前训练样本,将当前训练样本的、作为样本输入部分的预定期间内的用户历史行为序列提供给当前用户行为表征模型,得到对应的用户行为序列表征向量;再将所得到的用户行为序列表征向量提供给当前行为分布预测模型,得到对应的用户行为分布预测结果;再根据所得到的用户行为分布预测结果与对应的、作为标签部分的后续历史行为序列所指示的行为分布之间的差异,确定预测损失值;在不满足训练结束条件的情况下,根据所确定的预测损失值调整当前用户行为表征模型和当前行为分布预测模型的参数。
-
公开(公告)号:CN116596579A
公开(公告)日:2023-08-15
申请号:CN202310493639.7
申请日:2023-04-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/0202 , G06Q30/0601 , G06F18/2415 , G06F18/214
Abstract: 本说明书实施例公开了一种预测方法、交互事件预测模型的训练方法、装置和设备。所述预测方法包括:获取待预测的目标数据,所述目标数据包括用户数据和产品数据;通过交互事件预测模型中的领域模块,确定目标数据归属于多个预定领域的归属概率;通过交互事件预测模型中的预测模块,根据多个归属概率确定发生交互事件的第一概率,所述交互事件包括用户数据对应的用户与产品数据对应的产品所发生的交互事件。本说明书实施例可以提高交互事件预测的准确性。
-
公开(公告)号:CN116304841A
公开(公告)日:2023-06-23
申请号:CN202310414442.X
申请日:2023-04-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/24 , G06F18/214 , G06F18/23 , G06F18/22 , G06F16/9535 , G06F18/213 , G06N3/08 , G06N3/082 , G06N3/0464 , G06N3/045
Abstract: 本说明书实施例提供对象分类模型训练方法、对象分类方法、对象推荐方法及装置。在每次模型训练时,经由对象分类模型确定当前训练对象样本和各个聚类中心对象样本的分类预测结果,各个当前样本聚类通过对全量训练对象样本集进行聚类得到。确定当前训练对象样本与各个聚类中心对象样本之间的样本相似度,并且基于当前训练对象样本与各个聚类中心对象样本之间的样本相似度以及各个聚类中心对象样本的分类预测结果,确定当前训练对象样本的软标签。随后,根据当前训练对象样本的分类预测结果和软标签,确定当前损失函数;并且基于当前损失函数,调整对象分类模型的当前模型参数。
-
公开(公告)号:CN111626925B
公开(公告)日:2020-12-01
申请号:CN202010724039.3
申请日:2020-07-24
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种对抗补丁生成方法及装置,在该方法中,首先准备攻击者的第一人脸图片和其上设置的初始对抗补丁,并标记初始对抗补丁在第一人脸图片上的设置区域,然后,获取不同背景的攻击者的人脸图片集,包括第一人脸图片和若干第二人脸图片;根据第一人脸图片到第二人脸图片的图片变换方式,矫正初始对抗补丁在第二人脸图片上的设置位置,然后利用叠加了初始对抗补丁的人脸图像集,对初始补丁进行迭代优化获取目标对抗补丁。本申请生成的目标对抗补丁,降低了对抗补丁与背景的相关性,增加对抗补丁与人脸信息特征的相关性,提升对抗补丁的鲁棒性。
-
公开(公告)号:CN111626925A
公开(公告)日:2020-09-04
申请号:CN202010724039.3
申请日:2020-07-24
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种对抗补丁生成方法及装置,在该方法中,首先准备攻击者的第一人脸图片和其上设置的初始对抗补丁,并标记初始对抗补丁在第一人脸图片上的设置区域,然后,获取不同背景的攻击者的人脸图片集,包括第一人脸图片和若干第二人脸图片;根据第一人脸图片到第二人脸图片的图片变换方式,矫正初始对抗补丁在第二人脸图片上的设置位置,然后利用叠加了初始对抗补丁的人脸图像集,对初始补丁进行迭代优化获取目标对抗补丁。本申请生成的目标对抗补丁,降低了对抗补丁与背景的相关性,增加对抗补丁与人脸信息特征的相关性,提升对抗补丁的鲁棒性。
-
公开(公告)号:CN111242309A
公开(公告)日:2020-06-05
申请号:CN202010006328.X
申请日:2020-01-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本说明书实施例提供形成机器学习应用系统的方法、装置及电子设备,其中,通过所述机器学习应用系统生成机器学习处理模型,其中一个方法包括:获取用户对于机器学习应用系统的组件配置文件,其中,所述组件配置文件包括期望的组件及参数;获取机器学习应用的依赖树;以及基于所述组件配置文件和所述依赖树形成所述机器学习应用系统。
-
公开(公告)号:CN120069082A
公开(公告)日:2025-05-30
申请号:CN202510222707.5
申请日:2025-02-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种大语言模型LLM的偏好对齐训练方法、电子设备及存储介质。所述训练方法包括:对待训练LLM进行多轮自迭代直接偏好优化DPO训练,并在停止条件被满足时停止训练;其中,对于正整数i,对第i‑1轮训练得到的i‑1级LLM进行第i轮训练,包括:从预设的问题库中随机选取样本问题,将所述样本问题输入所述i‑1级LLM以获取该模型生成的样本答案,并利用预设的评分模型对所述样本答案与人类偏好的对齐程度进行评分;根据所述样本答案的评分结果从所述样本问题中确定可用样本问题,并基于所述可用样本问题及其对应的可用样本答案构建训练数据;利用所述训练数据对所述i‑1级LLM进行训练以得到i级LLM。
-
-
-
-
-
-
-
-
-