-
公开(公告)号:CN120075122A
公开(公告)日:2025-05-30
申请号:CN202510528050.5
申请日:2025-04-25
Applicant: 之江实验室
IPC: H04L45/02 , H04L45/12 , H04L47/125 , H04L47/283 , H04L49/356 , G06N3/098
Abstract: 本发明公开了一种面向分布式大模型训练的通信调度方法、电子设备、介质,包括:获取服务器集群规模、度数及AllReduce与MP流量的传输需求比例,按两类流量需求比例拆分为AllReduce流量、MP流量子拓扑的度数,基于此构建AllReduce子拓扑和MP子拓扑,组合得到拓扑图,并利用光交换机实现物理拓扑;当流量变化时,获取所有分布式大模型训练任务数组、链路数组、候选放置位置数组;根据拓扑图中构建每一候选放置位置对应的亲和图,计算亲和图中所有链路的兼容性得分,得到最佳放置位置;计算最佳放置位置对应的亲和图中所有连接子图的时延,将其总和作为总时延,以总时延最小为优化目标;根据最佳放置位置以及总时延在物理拓扑上进行分布式大模型训练。