一种分布式训练方法、系统及装置

    公开(公告)号:CN117395186A

    公开(公告)日:2024-01-12

    申请号:CN202210756779.4

    申请日:2022-06-29

    Abstract: 一种分布式训练方法、系统及装置,用于解决现有技术中交换机传输链路拥塞,导致传输数据较慢的问题。方法包括:管理节点获取网络拓扑,其中,网络拓扑包括核心交换机和计算集群中的计算节点的连通关系,随后,管理节点根据网络拓扑,确定N个计算节点之间的通信规划;其中,N个计算节点是计算集群中用于分布式训练目标模型的计算节点;通信规划包括多条组间路径,对于多条组间路径中的每条组间路径:组间路径包括N个计算节点中、属于不同分组的两个计算节点,以及用于连通两个计算节点的核心交换机,组间路径用于传输组间路径中两个计算节点之间的数据;多条组间路径分别传输的数据量符合预设条件;M和N均为大于2的整数。

Patent Agency Ranking