-
公开(公告)号:CN112486662A
公开(公告)日:2021-03-12
申请号:CN201910863064.7
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于属性控制的大规模系统隐式并行管理方法,包括对计算资源内隐式的作业管理控制和对虚拟计算资源信息的属性化展示,所述作业管理控制包括以下步骤:S11、启动运行控制域管理服务;S12、启动对虚拟计算资源的运行控制服务;S13、运行控制服务与运行控制域管理服务连接通信,构成计算资源内的独立层次运行控制域;S14、将作业启动请求、运行控制请求和管理请求发送至计算资源;S15、判断计算资源是否为虚拟化使用模式;S16、计算资源宿主机内的运行控制域管理服务接收虚拟机内的运行控制服务发回的各类管理控制结果。本发明提升大规模系统分布式运行控制的可扩展性,解决了因计算资源虚拟化导致的基础计算资源数量增多带来的运行控制扩展性压力问题。
-
公开(公告)号:CN112445636A
公开(公告)日:2021-03-05
申请号:CN201910832284.3
申请日:2019-09-04
Applicant: 无锡江南计算技术研究所
IPC: G06F11/07 , G06F16/215 , G06F16/22 , G06F16/2458
Abstract: 本发明公开一种基于序列模式的DRAM故障关联分析方法,包括以下步骤:对故障数据库中的非DRAM故障进行过滤,获得所需的DRAM故障数据;获得DRAM故障序列数据库;建立序列DRAM故障序列数据库;采用GSP算法,设定支持度,扫描序列DRAM故障序列数据库,获取所有满足支持度要求的DRAM故障序列的支持度;筛选出DRAM严重故障与DRAM严重故障、DRAM非严重故障与DRAM严重故障的序列规则,并计算其置信度;筛选出置信度大于60%的序列规则;如果出现反映DRAM严重故障与DRAM严重故障的序列规则,则表明DRAM严重故障与DRAM严重故障存在关联性;如果未出现反映DRAM非严重故障与DRAM严重故障关联的序列规则,则表明DRAM非严重故障不会导致DRAM严重故障。本发明解决了故障分析与预测关心的预测预警问题,具备高可信性和通用性,优化了分析执行效率。
-
公开(公告)号:CN112445493A
公开(公告)日:2021-03-05
申请号:CN201910800979.3
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种大规模异构环境下资源环境动态部署方法,包括以下步骤:S1、镜像管理系统生成若干基础镜像模板;S2、资源管理系统在物理节点上运行精简操作系统;S3、资源管理系统将资源环境需求发送给精简操作系统;S4、精简操作系统将该资源环境需求规格化为相应的配置文件和配置脚本;S5、精简操作系统在物理节点上按配置文件快速部署所需资源环境的镜像;S6、精简操作系统中获取对应的配置脚本;S7、运行配置脚本,完成对资源管理系统需求的资源环境的部署;S8、当资源管理系统的资源环境需求发生改变时,转到S3执行。本发明解决了传统大规模异构环境下节点资源启动时间长、用户运行环境需求多样从而导致的用户资源环境繁琐复杂、重构时间过长的问题。
-
公开(公告)号:CN102455991B
公开(公告)日:2013-11-27
申请号:CN201010527361.3
申请日:2010-10-28
Applicant: 无锡江南计算技术研究所
IPC: G06F15/16
Abstract: 本发明公开了一种计算机状态更新方法、装置及分布式系统。一种计算机状态更新方法,包括:接收计算机代理节点上报的工作状态信息;将工作状态信息表示的工作状态确定为计算机的当前工作状态;比较当前工作状态与前一次接收工作状态信息后确定的该计算机的工作状态,比较结果满足预设条件时,生成计算机工作状态变更信息并发送给总控,由总控更新记录在所述总控内的该计算机的工作状态。应用上述技术方案,将现有的组间并行、组内串行方式转变为组间并行、组内并行方式,当计算机工作状态发生变更时,实时发送计算机状态变更信息给总控,总控进而更新其该计算机的工作状态,解决了现有技术方案无法实现实时监测和更新计算机的工作状态的问题。
-
公开(公告)号:CN102455991A
公开(公告)日:2012-05-16
申请号:CN201010527361.3
申请日:2010-10-28
Applicant: 无锡江南计算技术研究所
IPC: G06F15/16
Abstract: 本发明公开了一种计算机状态更新方法、装置及分布式系统。一种计算机状态更新方法,包括:接收计算机代理节点上报的工作状态信息;将工作状态信息表示的工作状态确定为计算机的当前工作状态;比较当前工作状态与前一次接收工作状态信息后确定的该计算机的工作状态,比较结果满足预设条件时,生成计算机工作状态变更信息并发送给总控,由总控更新记录在所述总控内的该计算机的工作状态。应用上述技术方案,将现有的组间并行、组内串行方式转变为组间并行、组内并行方式,当计算机工作状态发生变更时,实时发送计算机状态变更信息给总控,总控进而更新其该计算机的工作状态,解决了现有技术方案无法实现实时监测和更新计算机的工作状态的问题。
-
公开(公告)号:CN112564927B
公开(公告)日:2022-11-25
申请号:CN201910852524.6
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
IPC: H04L67/10 , H04L41/0893 , H04L41/044 , H04L41/042
Abstract: 本发明公开一种自适应的资源多域动态组织方法,包括分域控制服务和节点监测阶段,节点监测阶段包括以下步骤:S1、计算计算节点的Smid,并把获得的Smid作为正在上报状态的Scid;S2、计算节点向正在上报状态的Scid发送状态消息,如成功,转S6,失败,进入S3;S3、计算节点判断正在上报状态的Scid是否为对应的Smid,如是,进入下一步,如不是,跳转S5;S4、计算Ssid,并把Ssid作为正在上报状态的Scid,跳转S2;S5、重新计算Ssid,并把计算节点的Ssid作为正在上报状态的Scid,跳转S2;S6、向对应的Smid发送探测消息,如成功,则把Smid作为正在上报状态的Scid,如失败,执行下一步;S7、等待一个心跳间隔后,跳转S2。本发明提高系统在规模扩展时的自适应处理能力,能够满足大规模系统的快速高效的资源管理,提高系统资源监测的实时性和可靠性。
-
公开(公告)号:CN112486576B
公开(公告)日:2022-07-12
申请号:CN201910863423.9
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种大规模并行作业的规模动态扩展控制方法,包括以下步骤:S1、申请分配可以用于并行作业的规模扩展的空闲计算资源集合;S2、在新分配的计算资源上,启动作业控制程序;S3、在新分配的计算资源上,启动新的作业任务进程;S4、通知作业系统本进程可以与原来使用的计算资源上的作业任务进程合并;S5、作业系统收到S4中请求后,将原作业任务的进程信息与新分配计算资源上启动的新作业任务的进程信息汇总;S6、作业系统通知可以进行规模扩展处理;S7、重构作业运行时环境。本发明在不终止作业的基础上通过较小的开销动态扩展作业的规模,避免了终止作业带来的计算机时损失和用户体验降低,提升了大规模并行系统的可用性与资源利用率。
-
公开(公告)号:CN114217912A
公开(公告)日:2022-03-22
申请号:CN202110325147.8
申请日:2021-03-26
Applicant: 无锡江南计算技术研究所
IPC: G06F9/48
Abstract: 本发明公开一种面向大规模并行机的快速作业调度方法,包括以下步骤:S1、设置系统作业等待时间阈值;S2、从作业池中获得所有待调度作业的基本信息;S3、将所有待调度作业按照计算得到的优先级由大到小进行排序;S4、各队列根据S3获得的作业排序情况,依次查询队列中可用资源数量是否满足待调度作业的资源需求,队列间可并行查询;S5、若队列中可用资源数量满足作业所需资源量,则调用作业启动模块启动该作业,并将启动结果记入数据库,此作业调度完成;S6、若队列中可用资源数量不满足作业所需资源量,则判断作业等待时间是否超过S1中设定的阈值。本发明解决了大规模并行机中固定资源规模需求作业的高效调度问题。
-
公开(公告)号:CN114217687A
公开(公告)日:2022-03-22
申请号:CN202110325143.X
申请日:2021-03-26
Applicant: 无锡江南计算技术研究所
IPC: G06F1/329
Abstract: 本发明公开一种基于众核处理器的系统功耗动态控制方法,包括以下步骤:S1、提交课题前,设置Pu,并设置Su为0;S2、运行提交的课题,自动记录该课题使用的众核处理器的F0;S3、判断课题是否结束,如课题已结束,跳转至S11;S4、通过资源管理系统获取Pr;S5、比较S4中获取的Pr与Pu;S6、将Fr提升一档,跳转至S9;S7、如果Su为1,则直接挂起该课题运行,跳至S10,否则,设置Su为1,跳至S9;S8、将Fr降低一档,跳至S9;S9、等待T后,跳至S3;S10、将Fr降低两档,恢复课题运行,跳至S3;S11、恢复Fr为F0。本发明解决了超大规模并行机用户课题运行中的系统功耗不受控问题。
-
公开(公告)号:CN112564927A
公开(公告)日:2021-03-26
申请号:CN201910852524.6
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种自适应的资源多域动态组织方法,包括分域控制服务和节点监测阶段,节点监测阶段包括以下步骤:S1、计算计算节点的Smid,并把获得的Smid作为正在上报状态的Scid;S2、计算节点向正在上报状态的Scid发送状态消息,如成功,转S6,失败,进入S3;S3、计算节点判断正在上报状态的Scid是否为对应的Smid,如是,进入下一步,如不是,跳转S5;S4、计算Ssid,并把Ssid作为正在上报状态的Scid,跳转S2;S5、重新计算Ssid,并把计算节点的Ssid作为正在上报状态的Scid,跳转S2;S6、向对应的Smid发送探测消息,如成功,则把Smid作为正在上报状态的Scid,如失败,执行下一步;S7、等待一个心跳间隔后,跳转S2。本发明提高系统在规模扩展时的自适应处理能力,能够满足大规模系统的快速高效的资源管理,提高系统资源监测的实时性和可靠性。
-
-
-
-
-
-
-
-
-