-
公开(公告)号:CN119783767A
公开(公告)日:2025-04-08
申请号:CN202411775751.0
申请日:2024-12-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/098 , G06N3/084 , G06F9/50 , H04L67/1001 , H04L67/1095
Abstract: 一种基于分布式系统的模型训练方法、计算节点和系统,所述分布式系统包括n组计算节点,每组计算节点包括m个计算节点,每组中的m个计算节点与目标模型包括的m个参数集合分别对应,所述方法包括:每组中的m个计算节点联合进行多次训练,使得每组中的各个计算节点得到其对应的参数集合中各个参数的第一值;所述n组中与第一参数对应的n个第一计算节点基于所述第一参数的n个第一值,确定与所述第一参数对应的第二值;所述n个第一计算节点分别将所述第一参数的值同步为所述第二值。
-
公开(公告)号:CN118798953A
公开(公告)日:2024-10-18
申请号:CN202410798704.1
申请日:2024-06-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/0202 , G06Q30/0201 , G06F18/214 , G06N20/00
Abstract: 本说明书实施例提供一种训练用户行为预测模型的方法及装置,在训练方法中,获取流式产生的样本集,其中的任一样本包括样本特征、第一标签和第二标签。将各个样本的样本特征输入用户行为预测模型,得到对应用户是否作出特定行为的预测结果。根据各个样本的预测结果和第一标签值,确定对应的各预测损失。根据各个样本的第一标签值和第二标签值,确定各个样本所属的指示延迟状态的样本类别,并基于该样本类别,确定各个样本的权重值。基于各个样本的权重值,对各个样本对应的各预测损失进行加权综合,并基于得到的综合损失调整用户行为预测模型的参数。
-
公开(公告)号:CN117764198A
公开(公告)日:2024-03-26
申请号:CN202311647790.8
申请日:2023-12-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00 , G06F18/25 , G06F18/214
Abstract: 本说明书实施例披露一种自然语言处理模型的训练方法及装置、预测模型的训练方法及装置。其中自然语言处理模型的训练方法所涉及多轮次迭代训练中的任一轮次包括:首先,基于本轮使用的一批次自然语言样本,确定所述自然语言处理模型在本轮训练中的本轮梯度数据;接着,基于所述本轮梯度数据,以及在上一轮训练中的上一轮梯度数据,确定梯度差异数据,并根据所述梯度差异数据确定预处理矩阵;然后,根据所述预处理矩阵和所述本轮梯度数据,确定参数调整量;之后,利用所述自然语言处理模型的当前模型参数和所述参数调整量,确定本轮更新后的模型参数。如此,可以加快自然语言处理模型的训练收敛速度,提高模型的泛化性能。
-
公开(公告)号:CN116882478A
公开(公告)日:2023-10-13
申请号:CN202310882168.9
申请日:2023-07-18
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种图像处理模型的训练方法及装置,一种预测模型的训练方法及装置。其中图像处理模型的训练方法涉及的任一轮次迭代训练包括:先利用当前批次图像样本,确定图像处理模型在其当前的第一模型参数处的第一训练梯度;再基于该第一训练梯度,确定以第一模型参数为中心点且具有预设半径的邻域内,使得当前训练损失发生最大变化的参数变化量;接着,确定图像处理模型在第二模型参数处的第二训练梯度,该第二模型参数基于该第一模型参数偏移该参数变化量而得到;然后,对第一训练梯度,以及第二训练梯度减去该第一训练梯度的梯度差值进行加权求和,得到第三训练梯度;基于预设学习率和该第三训练梯度,更新该第一模型参数。
-
-
-