基于SDN的云服务器负载均衡方法及装置

    公开(公告)号:CN105391797A

    公开(公告)日:2016-03-09

    申请号:CN201510882642.3

    申请日:2015-12-03

    CPC classification number: H04L67/1008

    Abstract: 本发明提供一种基于SDN的云服务器负载均衡方法及装置,其中方法包括:获取云服务器集群中各服务器的状态信息,服务器的状态信息包括服务器的负载;根据各服务器的负载,确定云服务器集群的负载总和;判断云服务器集群的负载总和是否大于第一预设阈值;若大于第一预设阈值,则根据负载总和与第一预设阈值之差启动新的服务器;若不大于第一预设阈值,则判断负载总和是否小于第二预设阈值;若小于第二预设阈值,则根据负载总和与第二预设阈值之差关闭部分服务器。本发明提供的基于SDN的云服务器负载均衡方法及装置,能够实现云服务器的动态负载均衡,避免有大量数据访问时云服务器的处理速度变慢,提高了云服务器的处理效率。

    一种基于交错执行的深度学习训练作业组合调度系统

    公开(公告)号:CN119166277A

    公开(公告)日:2024-12-20

    申请号:CN202411186916.0

    申请日:2024-08-28

    Abstract: 本公开提供一种基于交错执行的深度学习训练作业组合调度系统。包括深度学习训练作业控制器、作业组合调度器、作业组交错执行控制器三个组件,以及作业组交错执行的执行器;对于用户提交的深度学习训练作业,系统首先通过训练作业控制器创建Profile任务采集作业的运行时资源使用特征数据并输入作业组合调度器,作业组合调度器根据资源使用特征经过自定义的组合调度算法输出作业组配置的组合结果以及作业组选择节点类型到作业组交错执行控制器,最后由作业组交错执行控制器根据调度结果创建作业组训练任务控制作业组交错执行的执行器进行作业执行。相比单个训练作业独占资源的分布式训练模式,交错执行共享资源的运行机制,能够显著提升作业的执行效率。

    基于SDN的云服务器负载均衡方法及装置

    公开(公告)号:CN105391797B

    公开(公告)日:2019-02-22

    申请号:CN201510882642.3

    申请日:2015-12-03

    Abstract: 本发明提供一种基于SDN的云服务器负载均衡方法及装置,其中方法包括:获取云服务器集群中各服务器的状态信息,服务器的状态信息包括服务器的负载;根据各服务器的负载,确定云服务器集群的负载总和;判断云服务器集群的负载总和是否大于第一预设阈值;若大于第一预设阈值,则根据负载总和与第一预设阈值之差启动新的服务器;若不大于第一预设阈值,则判断负载总和是否小于第二预设阈值;若小于第二预设阈值,则根据负载总和与第二预设阈值之差关闭部分服务器。本发明提供的基于SDN的云服务器负载均衡方法及装置,能够实现云服务器的动态负载均衡,避免有大量数据访问时云服务器的处理速度变慢,提高了云服务器的处理效率。

    混合任务下的动态资源调度方法及系统

    公开(公告)号:CN104317635A

    公开(公告)日:2015-01-28

    申请号:CN201410538954.8

    申请日:2014-10-13

    Abstract: 本发明提供一种混合任务下的动态资源调度方法及系统,资源服务器执行混合任务时接收物理任务发送的资源请求消息,并根据资源请求消息判断物理任务的任务类型,其中混合任务包括MR任务和VM任务,在判断出VM任务时,将资源请求消息发送给位于第一工作节点上的VM服务器,接收VM服务器反馈的第一指示消息,根据所述第一指示消息获取第一目标工作节点,将VM任务发送到第一目标工作节点上绑定资源并执行。本发明中资源服务器在执行MR任务同时,也可以为VM任务分配资源,从而实现了对混合任务统一管理的目的,提高了执行混合任务时资源的整体利用率。

    一种多租户GPU集群弹性配额调度方法和系统

    公开(公告)号:CN117707759A

    公开(公告)日:2024-03-15

    申请号:CN202311563714.9

    申请日:2023-11-22

    Abstract: 本发明实现了一种多租户GPU集群弹性配额调度方法和系统。首先进行数据收集和预处理步骤,从任务历史数据库中抽取对任务执行时间有影响的关键指标,将数据输入预测模型模块;所述预测模型模块对每个用户分别构建和训练一个任务持续时间预测模型,而后输入训练好的所述任务持续时间预测模型得到时间预测结果;最后使用建立好的模型对新提交的任务的执行时间进行预测,并通过平均绝对误差MAE、均方误差MSE和决定系数R2指标来评估模型的准确性。该方案解决了目前多租户深度学习训练的GPU集群存在资源利用率低、多租户场景下资源使用的公平性和效率问题。

    一种用于处理地理分布式数据的跨集群计算系统

    公开(公告)号:CN110308984B

    公开(公告)日:2022-01-07

    申请号:CN201910360062.6

    申请日:2019-04-30

    Abstract: 一种用于处理地理分布式数据的跨集群计算的系统,包括有三层的集群管理框架,包括全局主节点‑‑集群主节点‑‑从节点,全局主节点负责管理所有的集群主节点,每个集群主节点则负责管理集群内部的从节点,使用应用提交客户端向全局主节点提交应用程序时,全局主节点会选择一个其管理的集群主节启动全局驱动器,所述全局驱动器启动成功后向全局主节点注册全局应用描述,全局主节点根据描述在各个集群主节点启动集群驱动器,集群驱动器启动成功后,向集群主节点注册集群应用描述,集群主节点再根据描述在各个内部从节点启动执行器,全部启动成功后,由全局驱动器开始任务分发和数据交换等来完成一个应用的执行。

    一种用于处理地理分布式数据的跨集群计算系统

    公开(公告)号:CN110308984A

    公开(公告)日:2019-10-08

    申请号:CN201910360062.6

    申请日:2019-04-30

    Abstract: 一种用于处理地理分布式数据的跨集群计算的系统,包括有三层的集群管理框架,包括全局主节点---集群主节点---从节点,全局主节点负责管理所有的集群主节点,每个集群主节点则负责管理集群内部的从节点,使用应用提交客户端向全局主节点提交应用程序时,全局主节点会选择一个其管理的集群主节启动全局驱动器,所述全局驱动器启动成功后向全局主节点注册全局应用描述,全局主节点根据描述在各个集群主节点启动集群驱动器,集群驱动器启动成功后,向集群主节点注册集群应用描述,集群主节点再根据描述在各个内部从节点启动执行器,全部启动成功后,由全局驱动器开始任务分发和数据交换等来完成一个应用的执行。

    混合任务下的动态资源调度方法及系统

    公开(公告)号:CN104317635B

    公开(公告)日:2017-11-07

    申请号:CN201410538954.8

    申请日:2014-10-13

    Abstract: 本发明提供一种混合任务下的动态资源调度方法及系统,资源服务器执行混合任务时接收物理任务发送的资源请求消息,并根据资源请求消息判断物理任务的任务类型,其中混合任务包括MR任务和VM任务,在判断出VM任务时,将资源请求消息发送给位于第一工作节点上的VM服务器,接收VM服务器反馈的第一指示消息,根据所述第一指示消息获取第一目标工作节点,将VM任务发送到第一目标工作节点上绑定资源并执行。本发明中资源服务器在执行MR任务同时,也可以为VM任务分配资源,从而实现了对混合任务统一管理的目的,提高了执行混合任务时资源的整体利用率。

Patent Agency Ranking