-
公开(公告)号:CN119782807A
公开(公告)日:2025-04-08
申请号:CN202411775767.1
申请日:2024-12-04
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/10 , G06N3/08 , G06N3/045 , G06Q20/40
Abstract: 本说明书实施例提供了一种用户样本的筛选方法及装置。第一训练集中包含多个用户样本,每一个用户样本具有多套风险标签。针对任意的第一用户样本,获取第一用户样本的多套风险标签分别对应的损失值,多个损失值从对第一神经网络的训练过程中得到。接着,从第一用户样本的多个损失值对应的第一融合损失中扣除第一值,得到修正损失。其中,第一值利用多个损失值的分布特征确定,用于体现由第一神经网络包含的误差而导致增大的损失值。在得到若干用户样本的修正损失时,基于该修正损失从第一训练集中筛选用户样本及其风险标签,并加入第三训练集。用户样本中包含隐私数据,在数据处理过程中需要进行隐私保护。
-
公开(公告)号:CN116842462A
公开(公告)日:2023-10-03
申请号:CN202310798061.6
申请日:2023-06-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/2415 , G06F18/214 , G06N3/04 , G16H70/40 , G06Q30/0601
Abstract: 本说明书实施例公开了一种基于样本模式增广的机器学习模型训练方法及系统,涉及人工智能技术领域,技术要点包括:利用真实样本以及增广样本对目标模型进行一轮以上迭代训练;其中的一轮迭代训练包括:通过目标模型分别处理真实样本和增广样本的特征值,得到对应的第一输出;通过滑动平均模型至少处理增广样本的特征值,得到对应的第二输出;其中,滑动平均模型的模型参数基于两轮以上历史迭代训练中的目标模型的模型参数获得;调整目标模型的模型参数,以减小真实样本对应的第一输出与对应标签之间的差异,同时减小增广样本对应的第一输出与第二输出之间的差异。
-
公开(公告)号:CN116842461A
公开(公告)日:2023-10-03
申请号:CN202310797569.4
申请日:2023-06-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/2415 , G06F18/214 , G16H70/40 , G16H10/60 , G16H50/70
Abstract: 本说明书实施例公开了一种基于表征泛化的模型训练方法及系统,其技术要点包括:获取测试组中的第一样本,以及对照组中的第二样本;其中,样本包括特征值及标签;通过因果效应预估模型分别处理第一样本的特征值以及第二样本的特征值,得到对应的中间结果以及效应输出;通过协同分类模型分别处理第一样本以及第二样本对应的中间结果,得到对应的分类输出;所述分类输出反映对应的中间结果属于测试组的概率和/或属于对照组的概率;调整因果效应预估模型的模型参数,以减小效应输出与对应标签之间的差异,同时均衡中间结果属于测试组的概率和属于对照组的概率。
-
公开(公告)号:CN118917379A
公开(公告)日:2024-11-08
申请号:CN202410918883.8
申请日:2024-07-09
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种针对多塔神经网络的模型训练方法及装置,包括:基于获取的样本集以及样本集中每个样本所对应的多源噪声标记组,通过第一损失函数对多塔神经网络进行第一阶段训练;确定每一样本分别对应于各个标记源视角的多源聚合输出概率;基于由第一损失函数与第二损失函数构建的目标损失函数对多塔神经网络进行第二阶段训练;第二损失函数为多塔神经网络在每一标记源视角下分别对样本集中的每一样本输出的概率值与相应样本对应于相应标记源视角的多源聚合输出概率之间的损失的加权平均值,任一标记源视角下对任一样本对应的损失的权重与多塔神经网络在该标记源视角下对该样本的认知的可靠程度呈负相关。
-
公开(公告)号:CN118504655A
公开(公告)日:2024-08-16
申请号:CN202410601009.1
申请日:2024-05-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/096 , G06N3/045 , G06F18/22 , G06F18/2415 , G06F18/10
Abstract: 本说明书一个或多个实施例提供一种基于知识蒸馏的模型训练方法及装置,包括:获取样本集以及样本集中每个样本所对应的多源噪声标记组;基于样本集以及各个多源噪声标记组训练教师网络,并根据教师网络在各个标记源视角下分别对各个样本输出的概率值与相应标记源添加的噪声标记之间的相似度,确定各个标记源的可靠程度,可靠程度与相似度呈正相关;根据包含有硬标签损失部分与软标签损失部分的蒸馏损失函数对学生网络进行训练;其中,每一多源噪声标记组中的各个噪声标记参与构建硬标签损失部分的概率,和/或教师网络针对同一样本分别在各个标记源视角下输出的概率值参与构建软标签损失部分的概率,与相应标记源的可靠程度呈正相关。
-
-
-
-