Patent search ap:("南京大学") AND inv:"崔子寒" Page 1

1.

发明公开
一种面向深度学习模型分布式训练的容器自动编排方法审中-实审

公开(公告)号：CN115794385A

公开(公告)日：2023-03-14

申请号：CN202211426263.X

申请日：2022-11-14

Applicant: 南京大学

Inventor： 曹春 , 徐经纬 , 崔子寒

IPC: G06F9/50 , G06N3/084

Abstract: 本发明公开面向深度学习模型分布式训练的容器自动编排方法，对于待训练的神经网络模型，获取其中算子；使用计算用时预测模型预测算子的计算用时，获得每一层的前向和反向传播用时开销；针对给定的硬件设备，并行运行通信带宽测试，采集设备的拓扑信息；根据计算用时预测模型得到的分析结果，结合硬件设备的拓扑信息，使用模拟退火的策略，进行模型划分，构建镜像，使用镜像创建容器，并基于Kubernetes，对容器进行编排；容器内部运行训练过程，容器之间进行通信，共同完成模型的训练。本发明在复杂神经网络模型的训练方面，提供了开箱即用的自动化模型划分功能，划分后的模型由多个设备并行训练，提升大模型的训练效率。

Patent Agency Ranking