-
公开(公告)号:CN114780225A
公开(公告)日:2022-07-22
申请号:CN202210668952.5
申请日:2022-06-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。
-
公开(公告)号:CN114780225B
公开(公告)日:2022-09-23
申请号:CN202210668952.5
申请日:2022-06-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。
-