-
公开(公告)号:CN117177377A
公开(公告)日:2023-12-05
申请号:CN202311208042.X
申请日:2023-09-19
Applicant: 之江实验室
IPC: H04W72/543 , G06N20/20
Abstract: 本发明公开了一种面向分布式训练的协作式梯度网内聚合调度方法和装置。其中,该方法,包括:根据收集到的网络资源信息和预定义的模型分区确定各worker节点上子模型对应的目标聚合节点;根据各worker节点上子模型对应的目标聚合节点,将各worker节点上划分得到的子模型训练后的梯度分片进标记;当梯度分片到达聚合节点时,将聚合节点的标识与梯度分片的标记进行比对,若不匹配则进行转发;若匹配,则将梯度分片分配到当前聚合节点特定的内存单元进行聚合;PS节点进行全局聚合,并将全局聚合后更新的参数发送至所有worker节点。本发明的技术方案,通过协作网内聚合执行梯度调度,实现了在可编程交换机上聚合异步到达的梯度并加速分布式训练。