-
公开(公告)号:CN116975686A
公开(公告)日:2023-10-31
申请号:CN202310907307.9
申请日:2023-07-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种训练学生模型的方法、行为预测方法和装置,该方法基于教师模型以及桥模型来训练学生模型,该方法包括:将原始特征数据输入第一嵌入层,得到第一嵌入特征并输入训练好的教师模型、以及桥模型,得到第一和第二预测结果并根据其更新桥模型;将第一嵌入特征输入桥模型所包括的桥特征提取网络、以及学生模型包括的学生特征提取网络,得到第一桥提取向量和学生提取向量,并根据其确定交互蒸馏损失;将原始特征数据输入第二嵌入层,得到第二嵌入特征并输入桥特征提取网络,得到第二桥提取向量;根据第一和第二桥提取向量,确定嵌入蒸馏损失;至少根据交互蒸馏损失和嵌入蒸馏损失,确定综合损失并根据其更新学生模型。
-
公开(公告)号:CN115496162A
公开(公告)日:2022-12-20
申请号:CN202211259139.9
申请日:2022-10-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种模型的训练方法、装置以及设备。通过获取第j层对于训练样本的输出特征xj,生成由M个输出特征所组成的特征矩阵,1≤j≤M;针对第i个任务,根据稀疏矩阵中的第i行与所述输出特征矩阵生成对应该任务的稀疏特征vi,其中,所述稀疏矩阵中包含K*M个可训练的稀疏参数Z;获取所述多任务模型对所述第i个任务的初始预测特征,融合所述初始预测特征和所述稀疏特征vi生成第i个任务的目标预测特征yi;根据所述目标预测特征yi和训练样本的标签的差异确定第i个任务的损失值Li;融合所产生的K个任务的损失值生成总损失值,根据所述总损失值对所述稀疏参数Z进行训练。
-
公开(公告)号:CN113420879A
公开(公告)日:2021-09-21
申请号:CN202110782136.2
申请日:2021-07-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本公开提供了一种多任务学习模型的预测方法及装置,所述方法包括:利用掩码对嵌入向量进行加权,得到加权后的嵌入向量;将加权后的嵌入向量输入第一子网络层和第三子网络层,得到第一子网络层的第一输出向量和第三子网络层的第二输出向量;将第一输出向量和第二输出向量输入第二子网络层进行处理,得到第三输出向量,处理包括利用第二子网络层的中的第一编码变量对第一输出向量进行计算,利用第二子网络层的中的第二编码变量对第二输出向量进行计算,其中第一编码变量指示第一子网络层中神经元与第三子网络层中神经元之间的连接关系,第二编码变量指示第二子网络层中神经元与第三子网络层中神经元之间的连接关系。
-
公开(公告)号:CN115345296A
公开(公告)日:2022-11-15
申请号:CN202210968303.7
申请日:2022-08-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种多任务模型的训练方法及装置,其中多任务模型包括用于确定用户表征的主干网络,以及用于基于用户表征执行k项用户预测任务的k个头部网络。该方法包括:基于m个用户样本,确定k项用户预测任务针对主干网络的k组原始梯度向量,其中各个用户样本包括用户特征和k个用户标签;将k组原始梯度向量映射至其所在原始空间的子空间,得到k组映射梯度向量;基于k组映射梯度向量在子空间的r个空间维度上的分量分布,确定对应的r个权重,并利用r个权重分别对各个映射梯度向量的r个维度分量进行加权处理,得到k组加权梯度向量;将k组加权梯度向量映射回原始空间,得到k组处理梯度向量,用以更新主干网络的网络参数。
-
-
-