分布式训练系统的组网方法和装置

    公开(公告)号:CN117675497A

    公开(公告)日:2024-03-08

    申请号:CN202311640823.6

    申请日:2023-11-30

    Inventor: 王勤龙 沙剑

    Abstract: 本说明书实施例提供一种分布式训练系统的组网方法和装置,分布式训练系统包括一个主控节点和多个训练节点,主控节点基于通用处理单元实现,训练节点基于专用加速单元实现,方法包括:主控节点启动第一数目个训练节点,并为每个训练节点分配对应的序号;接收任一训练节点启动成功后发送的第一上报信息,包括训练节点的序号和训练进程的进程数;根据接收到的第一数目个训练节点的第一上报信息形成第一统计列表,并将其发送给各个训练节点,以使各个训练节点根据第一统计列表进行通信组网,并行执行目标训练任务。能够实现分布式训练系统的自动容错,在节点出现故障后,也能够继续训练任务。

    一种分布式模型训练系统、方法及装置

    公开(公告)号:CN114780225A

    公开(公告)日:2022-07-22

    申请号:CN202210668952.5

    申请日:2022-06-14

    Inventor: 王勤龙 桑波

    Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。

    用于深度学习模型训练的方法、装置及系统

    公开(公告)号:CN114139723B

    公开(公告)日:2024-06-21

    申请号:CN202111443369.6

    申请日:2021-11-30

    Inventor: 王勤龙 章海涛

    Abstract: 本说明书实施例提供了用于深度学习模型训练的方法、装置及系统。包括计算节点和参数服务器节点的深度学习资源管理系统与分布式集群通信连接,计算节点包括主计算节点和从计算节点,参数服务器节点用于存储和更新模型参数。在该方法中,启动主计算节点和参数服务器节点,将一个数据分片下发给主计算节点,以使主计算节点和参数服务器节点执行一次模型迭代计算;在主计算节点的模型迭代计算过程中确定主计算节点的第一内存实际使用量;根据第一内存实际使用量预估第一内存使用量;以及按照所预估的第一内存使用量来配置并启动各个从计算节点,以使主计算节点、各个从计算节点以及参数服务器节点基于多个数据分片中的其他数据分片进行模型训练。

    一种分布式模型训练系统、方法及装置

    公开(公告)号:CN114780225B

    公开(公告)日:2022-09-23

    申请号:CN202210668952.5

    申请日:2022-06-14

    Inventor: 王勤龙 桑波

    Abstract: 本说明书公开了一种分布式模型训练系统、方法及装置,分布式模型训练系统包括节点分配单元、资源预测单元、工作节点和参数服务器,节点分配单元根据模型训练任务,节点资源预测请求,由资源预测单元响应于节点资源预测请求,根据历史任务,预测执行模型训练任务所需的资源,进而根据预测的资源确定节点数量。节点分配单元根据节点数量,确定各工作节点,并向各工作节点分配模型训练任务,使参数服务器配合各工作节点执行模型训练任务。可见,资源预测单元能够自动确定工作节点的数量,并由节点分配单元自动确定工作节点,使工作节点开始执行模型训练任务,无需用户在模型训练开始前手工分配工作节点,提高了模型训练的速度。

    用于深度学习模型训练的方法、装置及系统

    公开(公告)号:CN114139723A

    公开(公告)日:2022-03-04

    申请号:CN202111443369.6

    申请日:2021-11-30

    Inventor: 王勤龙 章海涛

    Abstract: 本说明书实施例提供了用于深度学习模型训练的方法、装置及系统。包括计算节点和参数服务器节点的深度学习资源管理系统与分布式集群通信连接,计算节点包括主计算节点和从计算节点,参数服务器节点用于存储和更新模型参数。在该方法中,启动主计算节点和参数服务器节点,将一个数据分片下发给主计算节点,以使主计算节点和参数服务器节点执行一次模型迭代计算;在主计算节点的模型迭代计算过程中确定主计算节点的第一内存实际使用量;根据第一内存实际使用量预估第一内存使用量;以及按照所预估的第一内存使用量来配置并启动各个从计算节点,以使主计算节点、各个从计算节点以及参数服务器节点基于多个数据分片中的其他数据分片进行模型训练。

Patent Agency Ranking