-
公开(公告)号:CN108170417A
公开(公告)日:2018-06-15
申请号:CN201711476493.6
申请日:2017-12-29
Applicant: 曙光信息产业(北京)有限公司
IPC: G06F8/20
Abstract: 本发明公开了一种在MESOS集群中集成高性能的作业调度框架的方法和装置,该方法包括:获取作业调度框架的作业信息,其中,作业信息包括作业调度框架上的作业的资源占用信息;将作业信息和MESOS集群中的可用资源信息相匹配;以及在作业信息和MESOS集群中的可用资源信息匹配成功后,将作业的资源占用信息同步到MESOS集群中,从而更新MESOS集群中的可用资源信息。本发明通过上述技术方案,从而实现了在Mesos集群集成了Slurm/PBS等高性能的作业调度框架,使得高性能作业可以在Mesos集群中运行并同步资源占用情况到Mesos集群中,进一步实现了超融合调度框架,使得高性能作业和其他作业可以在同一集群中运行且互不影响。
-
公开(公告)号:CN107277151A
公开(公告)日:2017-10-20
申请号:CN201710511733.5
申请日:2017-06-27
Applicant: 曙光信息产业(北京)有限公司
Abstract: 本发明公开了一种作业调度系统的计时方法,该计时方法包括:服务端对某用户节点的作业进行监控,得到本次作业的开始时间和结束时间,并将开始时间和结束时间广播到其余所有用户节点;各用户节点根据开始时间和结束时间,获取本次作业的耗费时间,并将获取的耗费时间反馈至其余所有用户节点;各用户节点将自身接收到的多个耗费时间进行统计,并根据统计结果,将耗费时间进行本地备份,同时服务端将耗费时间存入数据库。本发明通过所有用户节点共同维护机时数据库,信息同步及时并且对称,进而能够保证系统数据的安全性,避免中心化管理带来的数据丢失、损坏风险,而一旦中心服务端的区块数据库出现故障,其他用户节点可及时恢复系统数据库。
-
公开(公告)号:CN102904750B
公开(公告)日:2017-06-23
申请号:CN201210359410.6
申请日:2012-09-24
Applicant: 曙光信息产业(北京)有限公司
IPC: H04L12/24 , H04L12/751
Abstract: 本发明提供一种基于网络拓扑结构的作业分配方法,应用于计算机集群,选择节点的方法包括:步骤S1,选取一个节点,得到所述节点所属的交换机;步骤S2,根据所述节点所属交换机和拓扑关系,获得与所述节点所属交换机的拓扑距离小于等于TopologyChoosedDepth的所有交换机,判断所述所有交换机包含的所有节点的总数是否符合要求,是执行步骤S3,否,执行步骤S1;所述TopologyChoosedDepth为网络拓扑结构的调查深度;步骤S3,选取所述所有节点中权值最大的节点,结束。本发明提供一种基于网络拓扑结构的作业分配方法,根据服务器所处网络位置,将同一作业的任务尽可能的调度至同一网络区域中,能够提升高“通信/计算”比率作业的运行效率,网络模型更为精确,适应性更好,执行效率提升更加明显。
-
公开(公告)号:CN101645022B
公开(公告)日:2013-07-10
申请号:CN200910091830.9
申请日:2009-08-28
Applicant: 曙光信息产业(北京)有限公司
Abstract: 本发明提供一种用于多个集群的作业调度管理系统和方法,其中,该方法包括以下步骤:表示层门户界面接收用户请求并且将用户请求提供给作业管理中间件;作业管理中间件接收来自表示层门户界面的用户请求,将用户请求解释为操作请求并将操作请求提供给调度策略中间件;调度策略中间件根据来自作业管理中间件的操作请求进行策略配置,将配置信息应用至一个或多个调度系统以进行作业调度;一个或多个调度系统根据调度策略中间件配置的策略信息进行作业调度并将响应结果反馈给表示层门户界面。本发明还提供一种用于多个集群的作业调度管理系统。本发明通过添加中间件实现了多个集群的统一远程管理。
-
公开(公告)号:CN102521101A
公开(公告)日:2012-06-27
申请号:CN201110405731.0
申请日:2011-12-08
Applicant: 曙光信息产业(北京)有限公司
Abstract: 本发明提供了一种基于进程扫描的非法作业监控方法,首先,初始化进程黑名单和白名单;其次,读取作业调度的作业详细信息;再次,获取所有计算节点的进程信息及网络连接信息;然后,根据步获取的信息,按照某种匹配策略判定进程与“黑名单”、“白名单”及作业的相关性,进而判定进程的合法性。最后,根据判定结果和预定的处理策略对非法进程作出后继处理,并更新进程的“未知”进程的状态计数;本发明的优点在于:综合作业信息和操作系统信息(进程+网络)来判定进程与作业的相关性,可以不用关心用户应用的并行编程模型;通过多种类型的白名单、黑名单以及后继处理策略均可灵活配置,极大简化了管理员的工作。
-
公开(公告)号:CN102521050A
公开(公告)日:2012-06-27
申请号:CN201110397358.9
申请日:2011-12-02
Applicant: 曙光信息产业(北京)有限公司
IPC: G06F9/50
Abstract: 本发明提供了一种面向CPU和GPU的混合调度方法,S1,调度器初始化时读取调度策略配置、优先级配置参数;S2,调度器在每个调度循环中读取作业调度系统中的信息;S3,调度器根据作业资源请求信息和调度策略进行优先级计算,确定每个作业的优先级并降序排列;S4,根据S3中得到的排列顺序,按照调度策略进行作业调度。S5,根据S4的调度结果向调度系统发送作业启动请求;S6,休眠一段时间,然后返回S2进行下一个循环。本发明通过可定制的权重来设置GPU和非GPU作业的相对关系;在调度时判定GPU资源情况,达到GPU作业的准确调度。
-
公开(公告)号:CN102495759A
公开(公告)日:2012-06-13
申请号:CN201110404913.6
申请日:2011-12-08
Applicant: 曙光信息产业(北京)有限公司
IPC: G06F9/46
Abstract: 本发明提出了一种云计算环境中作业调度的方法,用户通过管理节点的申请接口向系统提交任务;管理节点根据用户提交的任务,分配计算节点执行任务;管理节点对资源运行状态进行监控,当资源不足时,选择该用户权限范围内相应的应用模板,生成新的计算资源,并添加到管理节点中,当用户的计算任务所获得的资源过剩时,选择向系统退还过剩的资源。本发明在生成、添加、配置新的计算节点的过程中,不需要管理员手动管理作业调度管理节点配置项,系统管理节点可以根据管理员在系统初始化时的基本配置,自动完成新计算节点的生成与添加。系统可以实现对计算资源的灵活调配,满足不同用户对计算资源规模的不同需求,同时实现对系统资源的有效分配,以最大化系统资源的利用率。
-
公开(公告)号:CN102402461A
公开(公告)日:2012-04-04
申请号:CN201110405117.4
申请日:2011-12-08
Applicant: 曙光信息产业(北京)有限公司
IPC: G06F9/48
Abstract: 本发明提供了一种基于作业规模的均衡调度方法,S1,系统启动;S2,计算作业优先级;S3,按照优先级启动调度作业,如果不能启动,则根据预约深度为作业创建预约;S4,检查当前是否还有空闲资源,如果有空闲资源,则选择可以回填的小作业回填;S5,本轮调度结束,睡眠一段时间,返回S2继续。本发明的优先级算法可以灵活定制。权重的设置可以是正数、负数、零,通过对于权重的设置,可以得到不同的优先级算法,如FIFO、大作业优先等;结合预约和抢占,可以较好的平衡大作业和小作业的竞争,提高系统的吞吐率。
-
公开(公告)号:CN119892932A
公开(公告)日:2025-04-25
申请号:CN202411898418.9
申请日:2024-12-20
Applicant: 曙光信息产业(北京)有限公司 , 中科曙光国际信息产业有限公司
IPC: H04L67/60 , H04L67/1001 , H04L67/30 , H04L41/0659 , H04L41/0668 , G06F9/50
Abstract: 本申请提供一种作业调度方法、装置、电子设备、存储介质及程序产品。该方法包括:通过本地集群的作业调度服务器获取目标用户的待处理作业信息,该待处理作业信息中包括待处理作业、目标用户的用户信息和待处理作业所在的目标作业队列。作业调度服务器根据待处理作业信息,确定是否将待处理作业调度至云端集群,若是,则将待处理作业调度至云端集群。本申请可以自动决策是否将目标用户的待处理作业调度至云端集群,目标用户无需在提交作业前查看本地集群的作业情况,可提高用户的工作效率。
-
公开(公告)号:CN117560424A
公开(公告)日:2024-02-13
申请号:CN202311314951.1
申请日:2023-10-11
Applicant: 曙光信息产业(北京)有限公司
Abstract: 本申请涉及一种任务分配方法、装置、系统、设备、存储介质和程序产品。所述方法包括:获取待分配的集群任务,并根据集群任务,确定集群任务的任务类型,若任务类型为高性能计算任务类型,则将集群任务下发至高性能集群中的主机端节点,以供主机端节点将集群任务下发至高性能集群中的客户端节点,若任务类型为容器任务类型,则将集群任务下发至容器集群中的控制节点,以供控制节点将集群任务下发至容器集群中的容器运行节点,客户端节点与容器运行节点为不同的集群节点。采用本方法能够提高任务执行效率。
-
-
-
-
-
-
-
-
-