-
公开(公告)号:CN120067842A
公开(公告)日:2025-05-30
申请号:CN202510220527.3
申请日:2025-02-26
Applicant: 支付宝(杭州)信息技术有限公司 , 南京大学
IPC: G06F18/2413 , G06F18/2415 , G06N3/08 , G06F18/214 , G06F18/22 , G06F18/23213 , G06Q40/00
Abstract: 本说明书实施例提供了一种训练用户分类模型的方法,包括:获取基于预训练模型分别初始化的第一分类模型、第二分类模型。利用第一分类模型,对用户集的第一子集中各用户进行类簇预测,得到类簇伪标签;以及,利用第二分类模型,对各用户进行M个用户群体的分类预测,得到分类伪标签。根据各用户的类簇伪标签和分类伪标签,从第一子集中确定出未知类别的第一用户。利用第一/第二分类模型,分别对该第一用户的增强样本进行预测,得到第一/第二预测结果;以第一预测结果接近该第一用户的类簇伪标签为目标,对第一分类模型进行更新;以第二预测结果中对应于M个用户群体的预测概率之和最大化为目标,对第二分类模型进行更新。
-
公开(公告)号:CN120014685A
公开(公告)日:2025-05-16
申请号:CN202510088122.9
申请日:2025-01-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V40/16 , G06V10/75 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0895
Abstract: 本说明书提供了一种模型训练方法及同质人群筛选方法、装置,模型训练方法包括利用带噪声标签的样本数据集对第一、第二初始模型进行协同指导训练,并且对未利用到的样本数据生成标签数据,并基于这些样本数据进行模型训练得到第一、第二子模型。基于半监督学习思想,为协同指导训练未利用到的高噪声数据生成对应的标签数据,从而利用全量的样本数据对模型进行训练,极大提高样本数据的利用率,而且增大训练数据规模,进而提高模型训练效果和精度。
-