基于多智能体深度强化学习的集群资源调度方法及系统

    公开(公告)号:CN111694656B

    公开(公告)日:2022-08-05

    申请号:CN202010322543.0

    申请日:2020-04-22

    Applicant: 北京大学

    Abstract: 本发明公开一种基于多智能体深度强化学习的集群资源调度方法及系统,涉及计算机软件技术领域,生成随机合成的作业序列或者基于云服务提供商公开数据的真实作业序列,从作业序列中提取作业,添加到等待作业队列中并计算预计执行时间,该等待作业队列设置成由多台机器组成的集群共享,每台机器含有待分配的计算资源;根据传统手工设计的启发式调度算法生成调度决策,并利用该调度决策训练、评估和优化基于多智能体深度强化学习的自适应调度算法,据以得到当前所有待调度作业整体的最终调度决策;对于待调度作业,根据最终调度决策指定的目标机器,在目标机器的可用计算资源中扣除作业使用的资源,到达作业预计完成时间后释放,完成调度。

    流量调度方法及装置
    2.
    发明授权

    公开(公告)号:CN111294284B

    公开(公告)日:2022-04-26

    申请号:CN201811505121.6

    申请日:2018-12-10

    Abstract: 本申请提供一种流量调度方法及装置。包括:网络设备向控制器发送网络设备的第一局部状态信息,第一局部状态信息用于生成网络设备的第一全局状态信息;网络设备接收控制器发送的第一全局状态信息;网络设备根据第一全局状态信息生成第一流量调度指令,网络设备接收控制器发送的第一流量调度指令,网络设备根据第一流量调度指令对待传输的第一数据流进行流量调度。由于各个网络设备无需采用广播方式实现通信,而是与控制器进行通信,控制器基于各个局部状态信息生成全局状态信息,从而解决了通信量过大的问题。

    一种基于深度强化学习的集群资源管理和任务调度方法及系统

    公开(公告)号:CN111966484A

    公开(公告)日:2020-11-20

    申请号:CN202010581407.3

    申请日:2020-06-23

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于深度强化学习的集群资源管理和任务调度方法及系统。该方法将需要运行的任务放置于待调度任务队列;通过资源调度管理智能体依次处理待调度任务队列中的任务,根据集群资源状况和任务的资源需求产生调度决策;所述资源调度管理智能体是根据在集群上运行的历史任务记录,使用深度强化学习的方法训练得到的神经网络;根据调度决策,将任务调度至集群中对应的机器上执行。本发明能够提高集群资源的利用率和系统吞吐率,并使得计算机集群资源分配可以在任务负载情况变化时自适应;本发明能够使得任务的响应时间更短,能够在相同负载的情况下减少集群机器数目,对于节省能源保护环境有重要的意义。

    基于多智能体深度强化学习的集群资源调度方法及系统

    公开(公告)号:CN111694656A

    公开(公告)日:2020-09-22

    申请号:CN202010322543.0

    申请日:2020-04-22

    Applicant: 北京大学

    Abstract: 本发明公开一种基于多智能体深度强化学习的集群资源调度方法及系统,涉及计算机软件技术领域,生成随机合成的作业序列或者基于云服务提供商公开数据的真实作业序列,从作业序列中提取作业,添加到等待作业队列中并计算预计执行时间,该等待作业队列设置成由多台机器组成的集群共享,每台机器含有待分配的计算资源;根据传统手工设计的启发式调度算法生成调度决策,并利用该调度决策训练、评估和优化基于多智能体深度强化学习的自适应调度算法,据以得到当前所有待调度作业整体的最终调度决策;对于待调度作业,根据最终调度决策指定的目标机器,在目标机器的可用计算资源中扣除作业使用的资源,到达作业预计完成时间后释放,完成调度。

    流量调度方法及装置
    5.
    发明公开

    公开(公告)号:CN111294284A

    公开(公告)日:2020-06-16

    申请号:CN201811505121.6

    申请日:2018-12-10

    Abstract: 本申请提供一种流量调度方法及装置。包括:网络设备向控制器发送网络设备的第一局部状态信息,第一局部状态信息用于生成网络设备的第一全局状态信息;网络设备接收控制器发送的第一全局状态信息;网络设备根据第一全局状态信息生成第一流量调度指令,网络设备接收控制器发送的第一流量调度指令,网络设备根据第一流量调度指令对待传输的第一数据流进行流量调度。由于各个网络设备无需采用广播方式实现通信,而是与控制器进行通信,控制器基于各个局部状态信息生成全局状态信息,从而解决了通信量过大的问题。

    一种面向大规模机器学习系统的机器学习模型训练方法

    公开(公告)号:CN109445953A

    公开(公告)日:2019-03-08

    申请号:CN201811000167.2

    申请日:2018-08-30

    Applicant: 北京大学

    Abstract: 本发明公开一种面向大规模机器学习系统的机器学习模型训练方法。本方法为:1)将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存的机器学习系统;2)各计算节点上的机器学习模型从该机器学习系统中读取本轮训练所需的训练数据和机器学习模型最新的参数数据;3)各计算节点分别利用当前获取的训练数据和参数数据训练本地的机器学习模型,计算机器学习模型的参数更新量并将其上传到该机器学习系统;4)该机器学习系统根据用户配置的参数更新方案和当前收到的参数更新量对参数进行更新。本发明使得机器学习算法的开发者无需关注分布式的具体实现,大大降低了大规模机器学习算法开发的难度。

Patent Agency Ranking