一种基于差异识别的并行系统局部迁移容错方法

    公开(公告)号:CN105468457A

    公开(公告)日:2016-04-06

    申请号:CN201510830319.1

    申请日:2015-11-24

    CPC classification number: G06F9/5016 G06F11/203

    Abstract: 一种基于差异识别的并行系统局部迁移容错方法包括:系统启动并行作业迁移容错并申请新的资源用于作业迁移;作业管理进行迁移前准备;并行文件系统进行飞行数据驱赶及状态保留;并行语言库进行消息驱赶及任务同步;并行语言库提取出需要迁移的关键信息,并通知到系统核心,并通知作业管理作业任务已经做好迁移准备;作业管理调用系统核心接口进行作业任务迁移,系统核心仅仅将系统核心状态与作业任务进程信息传送到目标节点,并恢复包含关键信息的作业任务进程;在目标节点,并行文件系统根据迁移前记录的描述符再次打开对应的文件,恢复文件环境,并行语言根据系统核心恢复的关键信息,恢复作业运行环境;作业管理重构作业,恢复作业的继续运行。

    异构众核处理器温度报警的多级处理方法

    公开(公告)号:CN112445154B

    公开(公告)日:2021-09-17

    申请号:CN201910794749.0

    申请日:2019-08-27

    Abstract: 本发明公开一种异构众核处理器温度报警的多级处理方法,包括以下步骤:处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;当监测系统接收到的温度信息的数值高于设定的温度阈值时,发出报警信息,并对出现预警的处理器节点的主核和从核进行降频降压操作,并在降频降压操作过程中跟踪记录相应处理器节点的温度信息;在设定的时间区间内,比较处理器节点的温度信息和设定的温度阈值,如果处理器节点的温度信息的数值低于设定的温度阈值,则将处理器恢复至正常运行状态,否则,执行下一步。本发明采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。

    大规模并行作业的规模动态扩展控制方法

    公开(公告)号:CN112486576A

    公开(公告)日:2021-03-12

    申请号:CN201910863423.9

    申请日:2019-09-12

    Abstract: 本发明公开一种大规模并行作业的规模动态扩展控制方法,包括以下步骤:S1、申请分配可以用于并行作业的规模扩展的空闲计算资源集合;S2、在新分配的计算资源上,启动作业控制程序;S3、在新分配的计算资源上,启动新的作业任务进程;S4、通知作业系统本进程可以与原来使用的计算资源上的作业任务进程合并;S5、作业系统收到S4中请求后,将原作业任务的进程信息与新分配计算资源上启动的新作业任务的进程信息汇总;S6、作业系统通知可以进行规模扩展处理;S7、重构作业运行时环境。本发明在不终止作业的基础上通过较小的开销动态扩展作业的规模,避免了终止作业带来的计算机时损失和用户体验降低,提升了大规模并行系统的可用性与资源利用率。

    面向大规模系统的多源故障协同分析定位方法

    公开(公告)号:CN112100019A

    公开(公告)日:2020-12-18

    申请号:CN201910863431.3

    申请日:2019-09-12

    Abstract: 本发明公开一种面向大规模系统的多源故障协同分析定位方法,包括以下步骤:S1、对各故障监测模块采集到的故障进行统一分类,给每个故障定义一个故障编码Fid,给每个故障定义上下关联列表Fuplist和Fdownlist,上关联列表Fuplist包含一组会诱发该故障的故障编码Fid,下关联列表Fdownlist包含一组该故障会诱发的故障的Fid;S2、故障分析系统接收来自各故障监测模块发送过来的故障,形成一个当前故障列表;S3、故障分析系统对当前故障列表进行上下关联分析;S10、故障分析系统实现对一个故障Fk的精确定位,跳转S4。本发明提高了系统故障自动分析定位能力,解决了大规模并行系统故障的准确定位难题。

    并行计算中作业全局任务信息传递方法

    公开(公告)号:CN102932410B

    公开(公告)日:2016-04-13

    申请号:CN201210359945.3

    申请日:2012-09-24

    Abstract: 一种并行计算中作业全局任务信息传递方法,包括:根据所述并行计算中作业的规模,确定所需中间层的资源;所述中间层至少为一层;作业总控将所述作业全局任务信息采用一对多的方式传递至中间层的资源,并经由所述中间层的资源将所述作业全局任务信息传递至计算节点;其中,所述中间层的资源的数量小于所述计算节点的数量。本发明减少了全局任务信息传递时间,提高了大规模作业启动的效率,有效缓解了网络压力。

    一种规模动态可伸缩的高可用并行作业控制方法

    公开(公告)号:CN105426249A

    公开(公告)日:2016-03-23

    申请号:CN201510826934.5

    申请日:2015-11-24

    CPC classification number: G06F9/5027 G06F9/3885

    Abstract: 本发明提供了一种规模动态可伸缩的高可用并行作业控制方法,包括:第一步骤,根据并行计算中作业的规模,确定并行作业控制中所需启动的作业分控数量;第二步骤,作业总控动态启动第一步骤中确定的需要数量的作业分控,将并行作业使用的计算节点按组划分,分配给作业分控进行按组管理,从而形成一个多层的作业任务控制树;第三步骤,在作业运行过程中,执行作业资源变更;第四步骤,作业控制模块将第三步骤执行后的作业资源变更情况通知到底层并行语言,由底层并行语言与作业控制协同进行并行作业的运行环境重构,使并行作业在环境重构后的新作业资源规模下继续运行。

    并行计算中作业启动数据压缩传递方法

    公开(公告)号:CN112398750B

    公开(公告)日:2024-02-06

    申请号:CN201910764215.3

    申请日:2019-08-19

    Abstract: 本发明公开一种并行计算中作业启动数据压缩传递方法,包括以下步骤:S11、启动作业,获取需要发送至运行该作业任务的计算资源的全数据信息;S12、将全数据信息压缩为删减了重复共性信息的属性数据信息;S2、将属性数据信息压缩为通过单独的格式化语句描述的格式数据信息;S3、获得压缩后的,用于发送至计算资源的传输数据信息;S4、对传输数据信息进行对应于通用压缩算法的通用解压缩和反向数据解析,获得原始的全数据信息;S5、计算资源各自的作业程序将获得的全数据信息进行本地存储,当计算资源需要数据信息时,可直接通过本地读取。本发明解决了大规模作业启动过程中信息传递量大、时间长的问题,提高了大规模作业启动的效率,并有效缓解了网络压力。

    计算节点功耗感知方法
    18.
    发明授权

    公开(公告)号:CN112395150B

    公开(公告)日:2022-10-04

    申请号:CN201910764228.0

    申请日:2019-08-19

    Abstract: 本发明公开一种计算节点功耗感知方法,包括以下步骤:运行带外系统;数据感知和登记程序模块周期性调用数据感知与转换模块,以获取节点的功耗数据;数据感知与转换模块读取传感器的原始电压、电流数据,并将来自传感器的原始电压、电流数据转换为节点的功耗数据;数据感知和登记程序模块将从数据感知与转换模块获取的功耗数据写入带内系统CPU的寄存器;数据感知和登记程序模块等待时间T后,转入步骤二,依此循环;当带外系统需要获取节点功耗数据时,功耗查询接口调用数据感知与转换模块,获取节点功耗数据。本发明解决了现有的计算机节点功耗数据感知方法高度依赖带内外网络传输、时效差、代价高、数据不完整的问题。

    一种超级计算机计算资源故障预测方法

    公开(公告)号:CN114218846A

    公开(公告)日:2022-03-22

    申请号:CN202110324746.8

    申请日:2021-03-26

    Abstract: 本发明公开一种超级计算机计算资源故障预测方法,包括以下步骤:S1、每隔s秒采集一个计算节点的特征信息,记为x1s;N个s秒为时间窗口T;S2、经过m个时间窗口T的数据积累,得到m个总特征X作为输入样本;S3、将S2中经数据处理后的m个总特征X和对应状态Y按batch大小划分成组;S4、从(m+1)个时间窗口T开始,将采集到的最新的总特征X_test和对应状态Y_test根据S2进行数据处理;S5、设置阈值并对比预测结果Y’和对应状态Y_test,当偏差大于设定的阈值时,将训练模型进行调参重训练,重复S4。本发明解决了超级计算机计算资源故障难以有效提前预测的问题。

    面向大规模系统的多源故障协同分析定位方法

    公开(公告)号:CN112100019B

    公开(公告)日:2021-03-23

    申请号:CN201910863431.3

    申请日:2019-09-12

    Abstract: 本发明公开一种面向大规模系统的多源故障协同分析定位方法,包括以下步骤:S1、对各故障监测模块采集到的故障进行统一分类,给每个故障定义一个故障编码Fid,给每个故障定义上下关联列表Fuplist和Fdownlist,上关联列表Fuplist包含一组会诱发该故障的故障编码Fid,下关联列表Fdownlist包含一组该故障会诱发的故障的Fid;S2、故障分析系统接收来自各故障监测模块发送过来的故障,形成一个当前故障列表;S3、故障分析系统对当前故障列表进行上下关联分析;S10、故障分析系统实现对一个故障Fk的精确定位,跳转S4。本发明提高了系统故障自动分析定位能力,解决了大规模并行系统故障的准确定位难题。

Patent Agency Ranking