一种多用户GPU集群的深度学习任务调度方法

    公开(公告)号:CN118093208B

    公开(公告)日:2024-07-26

    申请号:CN202410510424.6

    申请日:2024-04-26

    Abstract: 本发明公开了一种多用户GPU集群的深度学习任务调度方法,包括:构建深度学习任务对象,并将对应的深度学习任务发射到集群中;获取每个已发射任务的状态,并根据调度器的信号或任务本身状态的变化修改对应的任务状态;获取所述集群中的资源状态,并根据所述集群的反馈信息确定每个已发射任务对应的资源占用情况;根据每个已发射任务对应的资源占用情况和任务状态,利用短任务优先的资源共享策略对待分配任务进行资源分配;本发明依靠短任务优先的资源共享策略,在缓解任务资源饥饿问题的同时,降低了整体的任务完成时间,提高了深度学习任务的调度效率。

    一种多用户GPU集群的深度学习任务调度方法

    公开(公告)号:CN118093208A

    公开(公告)日:2024-05-28

    申请号:CN202410510424.6

    申请日:2024-04-26

    Abstract: 本发明公开了一种多用户GPU集群的深度学习任务调度方法,包括:构建深度学习任务对象,并将对应的深度学习任务发射到集群中;获取每个已发射任务的状态,并根据调度器的信号或任务本身状态的变化修改对应的任务状态;获取所述集群中的资源状态,并根据所述集群的反馈信息确定每个已发射任务对应的资源占用情况;根据每个已发射任务对应的资源占用情况和任务状态,利用短任务优先的资源共享策略对待分配任务进行资源分配;本发明依靠短任务优先的资源共享策略,在缓解任务资源饥饿问题的同时,降低了整体的任务完成时间,提高了深度学习任务的调度效率。

Patent Agency Ranking