面向深度学习的GPU资源管理与智能化调度方法

    公开(公告)号:CN112416585A

    公开(公告)日:2021-02-26

    申请号:CN202011310749.8

    申请日:2020-11-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。

    面向深度学习的GPU资源管理与智能化调度方法

    公开(公告)号:CN112416585B

    公开(公告)日:2024-03-15

    申请号:CN202011310749.8

    申请日:2020-11-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。

Patent Agency Ranking