-
公开(公告)号:CN105468457A
公开(公告)日:2016-04-06
申请号:CN201510830319.1
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
CPC classification number: G06F9/5016 , G06F11/203
Abstract: 一种基于差异识别的并行系统局部迁移容错方法包括:系统启动并行作业迁移容错并申请新的资源用于作业迁移;作业管理进行迁移前准备;并行文件系统进行飞行数据驱赶及状态保留;并行语言库进行消息驱赶及任务同步;并行语言库提取出需要迁移的关键信息,并通知到系统核心,并通知作业管理作业任务已经做好迁移准备;作业管理调用系统核心接口进行作业任务迁移,系统核心仅仅将系统核心状态与作业任务进程信息传送到目标节点,并恢复包含关键信息的作业任务进程;在目标节点,并行文件系统根据迁移前记录的描述符再次打开对应的文件,恢复文件环境,并行语言根据系统核心恢复的关键信息,恢复作业运行环境;作业管理重构作业,恢复作业的继续运行。
-
公开(公告)号:CN112564927B
公开(公告)日:2022-11-25
申请号:CN201910852524.6
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
IPC: H04L67/10 , H04L41/0893 , H04L41/044 , H04L41/042
Abstract: 本发明公开一种自适应的资源多域动态组织方法,包括分域控制服务和节点监测阶段,节点监测阶段包括以下步骤:S1、计算计算节点的Smid,并把获得的Smid作为正在上报状态的Scid;S2、计算节点向正在上报状态的Scid发送状态消息,如成功,转S6,失败,进入S3;S3、计算节点判断正在上报状态的Scid是否为对应的Smid,如是,进入下一步,如不是,跳转S5;S4、计算Ssid,并把Ssid作为正在上报状态的Scid,跳转S2;S5、重新计算Ssid,并把计算节点的Ssid作为正在上报状态的Scid,跳转S2;S6、向对应的Smid发送探测消息,如成功,则把Smid作为正在上报状态的Scid,如失败,执行下一步;S7、等待一个心跳间隔后,跳转S2。本发明提高系统在规模扩展时的自适应处理能力,能够满足大规模系统的快速高效的资源管理,提高系统资源监测的实时性和可靠性。
-
公开(公告)号:CN112486576B
公开(公告)日:2022-07-12
申请号:CN201910863423.9
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种大规模并行作业的规模动态扩展控制方法,包括以下步骤:S1、申请分配可以用于并行作业的规模扩展的空闲计算资源集合;S2、在新分配的计算资源上,启动作业控制程序;S3、在新分配的计算资源上,启动新的作业任务进程;S4、通知作业系统本进程可以与原来使用的计算资源上的作业任务进程合并;S5、作业系统收到S4中请求后,将原作业任务的进程信息与新分配计算资源上启动的新作业任务的进程信息汇总;S6、作业系统通知可以进行规模扩展处理;S7、重构作业运行时环境。本发明在不终止作业的基础上通过较小的开销动态扩展作业的规模,避免了终止作业带来的计算机时损失和用户体验降低,提升了大规模并行系统的可用性与资源利用率。
-
公开(公告)号:CN114217912A
公开(公告)日:2022-03-22
申请号:CN202110325147.8
申请日:2021-03-26
Applicant: 无锡江南计算技术研究所
IPC: G06F9/48
Abstract: 本发明公开一种面向大规模并行机的快速作业调度方法,包括以下步骤:S1、设置系统作业等待时间阈值;S2、从作业池中获得所有待调度作业的基本信息;S3、将所有待调度作业按照计算得到的优先级由大到小进行排序;S4、各队列根据S3获得的作业排序情况,依次查询队列中可用资源数量是否满足待调度作业的资源需求,队列间可并行查询;S5、若队列中可用资源数量满足作业所需资源量,则调用作业启动模块启动该作业,并将启动结果记入数据库,此作业调度完成;S6、若队列中可用资源数量不满足作业所需资源量,则判断作业等待时间是否超过S1中设定的阈值。本发明解决了大规模并行机中固定资源规模需求作业的高效调度问题。
-
公开(公告)号:CN114217687A
公开(公告)日:2022-03-22
申请号:CN202110325143.X
申请日:2021-03-26
Applicant: 无锡江南计算技术研究所
IPC: G06F1/329
Abstract: 本发明公开一种基于众核处理器的系统功耗动态控制方法,包括以下步骤:S1、提交课题前,设置Pu,并设置Su为0;S2、运行提交的课题,自动记录该课题使用的众核处理器的F0;S3、判断课题是否结束,如课题已结束,跳转至S11;S4、通过资源管理系统获取Pr;S5、比较S4中获取的Pr与Pu;S6、将Fr提升一档,跳转至S9;S7、如果Su为1,则直接挂起该课题运行,跳至S10,否则,设置Su为1,跳至S9;S8、将Fr降低一档,跳至S9;S9、等待T后,跳至S3;S10、将Fr降低两档,恢复课题运行,跳至S3;S11、恢复Fr为F0。本发明解决了超大规模并行机用户课题运行中的系统功耗不受控问题。
-
公开(公告)号:CN112564927A
公开(公告)日:2021-03-26
申请号:CN201910852524.6
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种自适应的资源多域动态组织方法,包括分域控制服务和节点监测阶段,节点监测阶段包括以下步骤:S1、计算计算节点的Smid,并把获得的Smid作为正在上报状态的Scid;S2、计算节点向正在上报状态的Scid发送状态消息,如成功,转S6,失败,进入S3;S3、计算节点判断正在上报状态的Scid是否为对应的Smid,如是,进入下一步,如不是,跳转S5;S4、计算Ssid,并把Ssid作为正在上报状态的Scid,跳转S2;S5、重新计算Ssid,并把计算节点的Ssid作为正在上报状态的Scid,跳转S2;S6、向对应的Smid发送探测消息,如成功,则把Smid作为正在上报状态的Scid,如失败,执行下一步;S7、等待一个心跳间隔后,跳转S2。本发明提高系统在规模扩展时的自适应处理能力,能够满足大规模系统的快速高效的资源管理,提高系统资源监测的实时性和可靠性。
-
公开(公告)号:CN112445632A
公开(公告)日:2021-03-05
申请号:CN201910831168.X
申请日:2019-09-04
Applicant: 无锡江南计算技术研究所
IPC: G06F11/00
Abstract: 本发明公开一种基于故障数据建模的HPC可靠性评估方法,包括以下步骤:对目标系统的所有故障单元,进行故障数据采集;基于故障严重等级,对采集到的故障数据进行故障分类,将故障数据分为严重故障数据与非严重故障数据;筛除与失效无关的非严重故障数据;选定时间区间,将该时间区间内的所有严重故障数据作为采样样本,采用最大似然估计法,计算weibull分布参数,获得该时间区间内的目标系统的失效时间分布模型;计算时间区间上的目标系统的MTTF,即weibull分布的特征值;根据不同时间区间的目标系统的MTTF变化,评估目标系统的可靠性变化特征。本发明能够真实反映系统运行中的可靠性指标,可以在线分析出系统在不同时间段的可靠性水平,指导系统容错和日常运维。
-
公开(公告)号:CN112395150A
公开(公告)日:2021-02-23
申请号:CN201910764228.0
申请日:2019-08-19
Applicant: 无锡江南计算技术研究所
IPC: G06F11/30
Abstract: 本发明公开一种计算节点功耗感知方法,包括以下步骤:运行带外系统;数据感知和登记程序模块周期性调用数据感知与转换模块,以获取节点的功耗数据;数据感知与转换模块读取传感器的原始电压、电流数据,并将来自传感器的原始电压、电流数据转换为节点的功耗数据;数据感知和登记程序模块将从数据感知与转换模块获取的功耗数据写入带内系统CPU的寄存器;数据感知和登记程序模块等待时间T后,转入步骤二,依此循环;当带外系统需要获取节点功耗数据时,功耗查询接口调用数据感知与转换模块,获取节点功耗数据。本发明解决了现有的计算机节点功耗数据感知方法高度依赖带内外网络传输、时效差、代价高、数据不完整的问题。
-
公开(公告)号:CN105487634A
公开(公告)日:2016-04-13
申请号:CN201510828279.7
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F1/32
CPC classification number: G06F1/3287
Abstract: 一种面向异构众核芯片的量化功耗控制方法,包括:获取异构众核芯片在每种状态下的基准功耗数据,建立外部的基础功耗数据表;获取异构众核芯片所支持的所有稳定运行频率的频率档次表;而且针对所有稳定运行频率建立不同频率下运行相同应用代码的芯片功耗存在关系,其中,频率越高,功耗越大,并且最低频率档次工作功耗一定小于最大稳定运行功耗;建立芯片的功耗管理策略作为功耗管理的依据;众核操作系统启动后,将功耗阈值寄存器、功耗预警寄存器均初始化为最大稳定运行功耗;众核芯片操作系统运行时,外部功耗管理系统启动功耗管理过程,将基础功耗表、频率档次表、功耗管理策略通知到各异构众核芯片的操作系统中。
-
公开(公告)号:CN102932410A
公开(公告)日:2013-02-13
申请号:CN201210359945.3
申请日:2012-09-24
Applicant: 无锡江南计算技术研究所
Abstract: 一种并行计算中作业全局任务信息传递方法,包括:根据所述并行计算中作业的规模,确定所需中间层的资源;所述中间层至少为一层;作业总控将所述作业全局任务信息采用一对多的方式传递至中间层的资源,并经由所述中间层的资源将所述作业全局任务信息传递至计算节点;其中,所述中间层的资源的数量小于所述计算节点的数量。本发明减少了全局任务信息传递时间,提高了大规模作业启动的效率,有效缓解了网络压力。
-
-
-
-
-
-
-
-
-