-
公开(公告)号:CN113923061B
公开(公告)日:2023-03-24
申请号:CN202111247747.3
申请日:2021-10-26
Applicant: 浙江大学
IPC: H04L12/02 , H04L61/5007 , G06F12/0831 , G06F12/10 , G06F15/17 , G06F15/173
Abstract: 本发明公开了一种GPU直接使用可编程智能网卡进行网络通信的方法,属于涉及计算机网络技术领域。本发明通过初始化将GPU内存进行存储区划分,预先在智能网卡中建立GPU内存中不同存储区的虚拟地址和物理地址的查找表,由此在实际应用中,初始化只会在系统开始运行时进行,系统实际运行过程中发生的大量收发包操作无需CPU接入。因此CPU参与的流程仅仅只有占比极小的初始化流程,占比极大的收发包流程可由GPU直接访问网卡并进行控制,完全不需要CPU参与。因此本发明大大节省了大量的CPU和GPU程序上下文切换的开销,有效降低了GPU通过智能网卡进行网络传输过程中的数据传输延时。
-
公开(公告)号:CN119129683B
公开(公告)日:2025-02-11
申请号:CN202411624147.8
申请日:2024-11-14
Applicant: 浙江大学
Abstract: 本发明公开了一种基于多GPU多SSD的图神经网络训练加速方法及系统,属于图神经网络训练领域。该方法通过读取服务器的物理架构信息,将CPU、GPU、SSD之间的通信链路关系建模为通信拓扑图,并将GPU拉取数据的链路过程转换为单源单汇点的最大流问题,通过Ford‑Fulkerson增广路算求解最优的访问流量分配方案,再考虑图顶点的访问频率将图顶点分配给当前性能指标最优的存储节点进行存储;最终完成图数据集中所有图顶点的存储后,由服务器执行图神经网络的逐批次训练任务。本发明可极大地提高系统的训练吞吐,满足对于TB级别超大规模图的训练,实现高效、低延迟的多GPU多SSD数据访问。
-
公开(公告)号:CN113923061A
公开(公告)日:2022-01-11
申请号:CN202111247747.3
申请日:2021-10-26
Applicant: 浙江大学
IPC: H04L12/02 , H04L61/5007 , G06F12/0831 , G06F12/10 , G06F15/17 , G06F15/173
Abstract: 本发明公开了一种GPU直接使用可编程智能网卡进行网络通信的方法,属于涉及计算机网络技术领域。本发明通过初始化将GPU内存进行存储区划分,预先在智能网卡中建立GPU内存中不同存储区的虚拟地址和物理地址的查找表,由此在实际应用中,初始化只会在系统开始运行时进行,系统实际运行过程中发生的大量收发包操作无需CPU接入。因此CPU参与的流程仅仅只有占比极小的初始化流程,占比极大的收发包流程可由GPU直接访问网卡并进行控制,完全不需要CPU参与。因此本发明大大节省了大量的CPU和GPU程序上下文切换的开销,有效降低了GPU通过智能网卡进行网络传输过程中的数据传输延时。
-
公开(公告)号:CN118939434A
公开(公告)日:2024-11-12
申请号:CN202411412146.7
申请日:2024-10-11
Applicant: 浙江大学
IPC: G06F9/50
Abstract: 本发明公开了一种基于多SSD的单GPU大模型训练方法及系统,属于模型异构训练技术领域。本发明通过搭载多块SSD和单个GPU的软硬件协同设计,在CPU和GPU上额外申请一块空间用于异步的通信,在不影响计算的同时隐藏了通信带来的开销,解决了SSD‑CPU和CPU‑GPU之间带宽差异导致训练性能下降的问题,可大幅提高可训练模型规模和训练效率,同时降低训练成本。另外,本发明在大模型异构训练过程中引入主动卸载技术,使用多进程技术将GPU上的反向计算和CPU上的优化器计算并行,同时将CPU上的优化器计算和SSD‑CPU之间的通信并行起来,从而减少通信和计算串行带来的开销,避免梯度冗余传输问题。
-
公开(公告)号:CN118939434B
公开(公告)日:2025-03-07
申请号:CN202411412146.7
申请日:2024-10-11
Applicant: 浙江大学
IPC: G06F9/50
Abstract: 本发明公开了一种基于多SSD的单GPU大模型训练方法及系统,属于模型异构训练技术领域。本发明通过搭载多块SSD和单个GPU的软硬件协同设计,在CPU和GPU上额外申请一块空间用于异步的通信,在不影响计算的同时隐藏了通信带来的开销,解决了SSD‑CPU和CPU‑GPU之间带宽差异导致训练性能下降的问题,可大幅提高可训练模型规模和训练效率,同时降低训练成本。另外,本发明在大模型异构训练过程中引入主动卸载技术,使用多进程技术将GPU上的反向计算和CPU上的优化器计算并行,同时将CPU上的优化器计算和SSD‑CPU之间的通信并行起来,从而减少通信和计算串行带来的开销,避免梯度冗余传输问题。
-
公开(公告)号:CN119129683A
公开(公告)日:2024-12-13
申请号:CN202411624147.8
申请日:2024-11-14
Applicant: 浙江大学
Abstract: 本发明公开了一种基于多GPU多SSD的图神经网络训练加速方法及系统,属于图神经网络训练领域。该方法通过读取服务器的物理架构信息,将CPU、GPU、SSD之间的通信链路关系建模为通信拓扑图,并将GPU拉取数据的链路过程转换为单源单汇点的最大流问题,通过Ford‑Fulkerson增广路算求解最优的访问流量分配方案,再考虑图顶点的访问频率将图顶点分配给当前性能指标最优的存储节点进行存储;最终完成图数据集中所有图顶点的存储后,由服务器执行图神经网络的逐批次训练任务。本发明可极大地提高系统的训练吞吐,满足对于TB级别超大规模图的训练,实现高效、低延迟的多GPU多SSD数据访问。
-
-
-
-
-