-
公开(公告)号:CN114816757A
公开(公告)日:2022-07-29
申请号:CN202210477181.1
申请日:2022-05-03
Applicant: 南京大学
Abstract: 本发明公开了一种面向深度学习的作业资源自动弹性伸缩方法,包括如下步骤:用户通过系统接口提交深度学习作业和作业描述文件;根据同类型作业的历史执行数据,建立作业资源预测模型;使用该模型预测作业的初始资源量,启动相应数量的实例;对每一个作业实例,基于主机资源负载、集群拓扑、用户偏好以及GPU设备的分布进行调度;每一轮深度学习训练迭代完成后,判断作业能否按预期时间完成;根据作业当前执行速度,计算作业资源弹性伸缩系数;进行作业实例数的自动调整。本发明可解决现有弹性伸缩方法在深度学习场景下资源利用率低、GPU设备分配依赖人工的问题。