一种分布式模型训练系统、方法及装置

    公开(公告)号:CN114780225A

    公开(公告)日:2022-07-22

    申请号:CN202210668952.5

    申请日:2022-06-14

    Inventor: 王勤龙 桑波

    Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。

    一种分布式模型训练系统、方法及装置

    公开(公告)号:CN114780225B

    公开(公告)日:2022-09-23

    申请号:CN202210668952.5

    申请日:2022-06-14

    Inventor: 王勤龙 桑波

    Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。

Patent Agency Ranking