-
公开(公告)号:CN118282923A
公开(公告)日:2024-07-02
申请号:CN202410366668.1
申请日:2024-03-28
Applicant: 南京大学
Abstract: 本发明公开了一种基于环算法的多GPU集合通信路径选择方法,该方法提供了一种具备网络拓扑感知能力的智能通信路径选择机制,该机制能够紧密结合GPU分布式训练集群的实际物理网络布局、各种网络链路的带宽情况,选择合适的通信路径。根据本发明方法最终获得的目标环状通信路径进行环算法可以进行的所有集合通信行为时,在该机制的作用下,数据传输可以在优先利用距离相近且带宽充足的网卡进行直接通信的同时,避免不必要的内部带宽资源占用,以优化网络系统的整体通信效率。
-
公开(公告)号:CN117579349A
公开(公告)日:2024-02-20
申请号:CN202311552747.3
申请日:2023-11-21
Applicant: 南京大学
Abstract: 本发明公开了一种基于多流水线交换机的网络监测系统,交换机数据面用于处理和转发交换机各不同端口上各种类型的数据报文,并将超过流水线阈值的流上报到交换机控制面中,交换机控制面用于控制和管理交换机中所有模块的运行,对上报的流进行监测。当数据包进入交换机的某条流水线中,流水线上的程序会判断其是否可能为潜在的目标,如果是,则该流水线会将该数据包上报给交换机控制面。位于交换机控制面的控制器会在每个epoch结束时拉取、合并数据平面所有流水线的数据,核对数据平面上报的流是否为真正的目标。在整合本次epoch收集的信息后,控制器会下发新的控制信息给数据平面的各条流水线,以使它们更加准确高效地工作。
-