一种面向深度学习的作业资源自动弹性伸缩方法

    公开(公告)号:CN114816757A

    公开(公告)日:2022-07-29

    申请号:CN202210477181.1

    申请日:2022-05-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的作业资源自动弹性伸缩方法,包括如下步骤:用户通过系统接口提交深度学习作业和作业描述文件;根据同类型作业的历史执行数据,建立作业资源预测模型;使用该模型预测作业的初始资源量,启动相应数量的实例;对每一个作业实例,基于主机资源负载、集群拓扑、用户偏好以及GPU设备的分布进行调度;每一轮深度学习训练迭代完成后,判断作业能否按预期时间完成;根据作业当前执行速度,计算作业资源弹性伸缩系数;进行作业实例数的自动调整。本发明可解决现有弹性伸缩方法在深度学习场景下资源利用率低、GPU设备分配依赖人工的问题。

Patent Agency Ranking