-
公开(公告)号:CN117194992B
公开(公告)日:2024-04-19
申请号:CN202311454844.9
申请日:2023-11-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/25 , G06F9/50 , G06N3/0499 , G06N3/08
Abstract: 本说明书公开一种模型训练、任务执行方法、装置、存储介质及设备,中心服务器可以基于各下游任务的共性样本对初始模型进行预训练,得到具有执行各下游任务的基础能力的预训练模型,进而可以通过将预训练模型的模型参数发送给每个下游服务器,以使得每个下游服务器基于本地样本对预训练模型中的调整层进行训练,得到训练后模型,并将训练后模型的调整层的网络参数返回,中心服务器可以根据各下游服务器返回的调整层网络参数,对预训练模型的调整层进行更新,得到目标模型,从而使得可以通过预训练模型的调整层学习到不同下游服务器所私有的本地样本和预训练过程中使用的共性样本之间的潜在联系,进而使得目标模型在下游任务中的性能得到提升。
-
公开(公告)号:CN115345233A
公开(公告)日:2022-11-15
申请号:CN202210974842.1
申请日:2022-08-15
Applicant: 清华大学 , 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法应用于终端设备,包括:接收服务器发送的第一模型,获取第一训练样本数据,以对第一模型进行训练,并对第一模型的模型结构进行调整,得到目标模型,将目标模型对应的模型更新数据发送给服务器,以使服务器确定得到目标模型所使用的时长,并基于不同终端设备提供的模型更新数据对当前的模型进行更新,得到第二模型,并在确定第二模型需要裁剪时,确定对第二模型的裁剪程度和对第二模型进行训练所使用的时长,获取第二训练样本数据,并结合对第二模型进行训练所使用的时长对第二模型进行训练,并通过该裁剪程度对第二模型进行调整,得到第三模型,将第三模型发送给服务器。
-
公开(公告)号:CN117194992A
公开(公告)日:2023-12-08
申请号:CN202311454844.9
申请日:2023-11-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/25 , G06F9/50 , G06N3/0499 , G06N3/08
Abstract: 本说明书公开一种模型训练、任务执行方法、装置、存储介质及设备,中心服务器可以基于各下游任务的共性样本对初始模型进行预训练,得到具有执行各下游任务的基础能力的预训练模型,进而可以通过将预训练模型的模型参数发送给每个下游服务器,以使得每个下游服务器基于本地样本对预训练模型中的调整层进行训练,得到训练后模型,并将训练后模型的调整层的网络参数返回,中心服务器可以根据各下游服务器返回的调整层网络参数,对预训练模型的调整层进行更新,得到目标模型,从而使得可以通过预训练模型的调整层学习到不同下游服务器所私有的本地样本和预训练过程中使用的共性样本之间的潜在联系,进而使得目标模型在下游任务中的性能得到提升。
-
-