-
公开(公告)号:CN119030916A
公开(公告)日:2024-11-26
申请号:CN202411249446.8
申请日:2024-09-06
Applicant: 北京邮电大学
IPC: H04L45/12 , H04L45/00 , H04L45/74 , H04L47/125 , H04L43/0852 , H04L43/0894
Abstract: 一种基于网络遥测的大规模分布式训练系统路由调度方法,属于数据中心路由调度策略技术领域,主要包括以下步骤:将节点和网络设备连接,通过网络设备将ECMP的哈希函数上传到节点;网络设备使能INT携带信息;主机端侧收集网络链路指标信息,并根据网络链路指标信息进行周期分析和预测;基于时间属性表征的路径质量执行选路算法,计算任务流的最优路径;对于分配了训练任务的节点,选择具有最小EFCT即最高时间质量的最优路径后,将强制流量定向通过该最优路径进行发送。本发明基于INT的监控信息来进行路径时序属性预测,提高了传输性能,增加了网络并发最大容量,优化了训练效率,同时降低了数据中心网络的部署成本。