-
公开(公告)号:CN116155750A
公开(公告)日:2023-05-23
申请号:CN202310417880.1
申请日:2023-04-19
Applicant: 之江实验室
IPC: H04L41/14
Abstract: 本申请涉及一种深度学习作业资源放置方法、系统、设备和存储介质,其中,该方法包括:获取待放置的训练作业以及相应的优先级;基于优先级的顺序,依次根据训练作业的需求资源量,选择作业放置的网络结构;网络结构包括服务器、顶端交换机、容器组集合Podset以及主干层交换机;基于选择的网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案。通过本申请,能够以训练过程中网络数据传输量作为优化目标,针对训练作业选择放置的不同网络结构,得到相应的作业放置方案,有效减少网络中数据传输来提高集群中资源利用率,解决了统一的训练作业资源放置导致资源利用率低下的问题。
-
公开(公告)号:CN116155750B
公开(公告)日:2023-08-01
申请号:CN202310417880.1
申请日:2023-04-19
Applicant: 之江实验室
IPC: H04L41/14
Abstract: 本申请涉及一种深度学习作业资源放置方法、系统、设备和存储介质,其中,该方法包括:获取待放置的训练作业以及相应的优先级;基于优先级的顺序,依次根据训练作业的需求资源量,选择作业放置的网络结构;网络结构包括服务器、顶端交换机、容器组集合Podset以及主干层交换机;基于选择的网络结构,将训练过程中网络数据传输量作为优化目标进行最小化优化,得到相应的作业放置方案。通过本申请,能够以训练过程中网络数据传输量作为优化目标,针对训练作业选择放置的不同网络结构,得到相应的作业放置方案,有效减少网络中数据传输来提高集群中资源利用率,解决了统一的训练作业资源放置导致资源利用率低下的问题。
-