-
公开(公告)号:CN115496162A
公开(公告)日:2022-12-20
申请号:CN202211259139.9
申请日:2022-10-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种模型的训练方法、装置以及设备。通过获取第j层对于训练样本的输出特征xj,生成由M个输出特征所组成的特征矩阵,1≤j≤M;针对第i个任务,根据稀疏矩阵中的第i行与所述输出特征矩阵生成对应该任务的稀疏特征vi,其中,所述稀疏矩阵中包含K*M个可训练的稀疏参数Z;获取所述多任务模型对所述第i个任务的初始预测特征,融合所述初始预测特征和所述稀疏特征vi生成第i个任务的目标预测特征yi;根据所述目标预测特征yi和训练样本的标签的差异确定第i个任务的损失值Li;融合所产生的K个任务的损失值生成总损失值,根据所述总损失值对所述稀疏参数Z进行训练。
-
公开(公告)号:CN115345296A
公开(公告)日:2022-11-15
申请号:CN202210968303.7
申请日:2022-08-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种多任务模型的训练方法及装置,其中多任务模型包括用于确定用户表征的主干网络,以及用于基于用户表征执行k项用户预测任务的k个头部网络。该方法包括:基于m个用户样本,确定k项用户预测任务针对主干网络的k组原始梯度向量,其中各个用户样本包括用户特征和k个用户标签;将k组原始梯度向量映射至其所在原始空间的子空间,得到k组映射梯度向量;基于k组映射梯度向量在子空间的r个空间维度上的分量分布,确定对应的r个权重,并利用r个权重分别对各个映射梯度向量的r个维度分量进行加权处理,得到k组加权梯度向量;将k组加权梯度向量映射回原始空间,得到k组处理梯度向量,用以更新主干网络的网络参数。
-