深度学习作业优先级调度方法及深度学习作业系统

    公开(公告)号:CN113568725A

    公开(公告)日:2021-10-29

    申请号:CN202110794626.4

    申请日:2021-07-14

    Abstract: 本发明提出一种深度学习作业优先级调度方法,包括:于任一作业调度周期内,获取GPU集群中所有可用GPU的预测工作参数,以及该GPU集群的等待队列中所有作业的预测作业参数;以该预测工作参数和该预测作业参数预估每个作业的剩余执行时间;以任一作业的剩余执行时间与该作业的预估资源数量的乘积,作为该作业的作业面积;选取所有作业中具有作业面积最小值的作业,设置具有当前作业周期内的最高优先级。本发明还提出一种深度学习作业系统,以及一种数据处理装置。

    深度学习作业优先级调度方法及深度学习作业系统

    公开(公告)号:CN113568725B

    公开(公告)日:2024-11-22

    申请号:CN202110794626.4

    申请日:2021-07-14

    Abstract: 本发明提出一种深度学习作业优先级调度方法,包括:于任一作业调度周期内,获取GPU集群中所有可用GPU的预测工作参数,以及该GPU集群的等待队列中所有作业的预测作业参数;以该预测工作参数和该预测作业参数预估每个作业的剩余执行时间;以任一作业的剩余执行时间与该作业的预估资源数量的乘积,作为该作业的作业面积;选取所有作业中具有作业面积最小值的作业,设置具有当前作业周期内的最高优先级。本发明还提出一种深度学习作业系统,以及一种数据处理装置。

    GPU集群调度策略模拟方法及GPU集群模拟器

    公开(公告)号:CN113504966B

    公开(公告)日:2023-10-31

    申请号:CN202110690973.2

    申请日:2021-06-22

    Abstract: 本发明提出一种GPU集群调度策略模拟方法,包括:获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略;基于该调度策略,获取该工作负载完成无故障运行的预测时间;根据该集群参数和该预测时间,设定该模拟GPU集群的模拟故障参数;以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟,获取该工作负载在故障工作状态时的运行数据。本发明还提出一种GPU集群模拟器,及一种实现GPU集群调度策略模拟数据处理装置。

    GPU集群调度策略模拟方法及GPU集群模拟器

    公开(公告)号:CN113504966A

    公开(公告)日:2021-10-15

    申请号:CN202110690973.2

    申请日:2021-06-22

    Abstract: 本发明提出一种GPU集群调度策略模拟方法,包括:获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略;基于该调度策略,获取该工作负载完成无故障运行的预测时间;根据该集群参数和该预测时间,设定该模拟GPU集群的模拟故障参数;以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟,获取该工作负载在故障工作状态时的运行数据。本发明还提出一种GPU集群模拟器,及一种实现GPU集群调度策略模拟数据处理装置。

Patent Agency Ranking