一种基于TR-DQN的高性能计算集群资源调度方法及系统

    公开(公告)号:CN117591273A

    公开(公告)日:2024-02-23

    申请号:CN202311483923.2

    申请日:2023-11-06

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于TR‑DQN的高性能计算集群资源调度方法及系统,首先用户提交任务请求,所有请求进入等待队列等待调度;然后计算提交任务的优先级,并对等待队列进行重排序;接着收集和处理集群的节点信息和任务信息,将处理后的数据输入至TR‑DQN模型进行调度;最后任务调度完成之后进入对应节点运行。TR‑DQN模型将高性能计算集群调度的特点结合到深度强化学习中,并引入两级神经网络结构,第一级神经网络用于选择立即执行或预留执行的任务,第二级神经网络用于选择用于回填的任务,可以提高集群的资源利用率、减少任务的等待时间,并能快速适应集群负载环境的变化,此外,还能最大限度地减少集群的工作饥饿问题。

    一种基于Slurm中间件的资源调度方法及系统

    公开(公告)号:CN117555676A

    公开(公告)日:2024-02-13

    申请号:CN202311474137.6

    申请日:2023-11-06

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于Slurm中间件的资源调度方法及系统,首先接收用户发送的作业提交请求;根据配置的拦截规则对提交的作业进行拦截;计算作业的优先级,并根据优先级对作业队列进行重排序;然后利用查询命令获取集群的所有节点信息和作业信息;从作业队列中读取作业,根据作业信息和集群状态进行调度;最后,作业调度完成之后进入对应节点进行计算。本发明可以提高集群的资源利用率和减少集群的工作饥饿问题,同时,采用中间件的架构进行设计,可以将调度和管理逻辑独立出来,与底层系统解耦,从而不会对原有高性能计算系统产生很大的侵入性,让系统更加高效地部署和扩展。

Patent Agency Ranking