系统功耗控制方法、装置、设备及介质

    公开(公告)号:CN117348712A

    公开(公告)日:2024-01-05

    申请号:CN202311317820.9

    申请日:2023-10-11

    Abstract: 本发明实施例公开了一种系统功耗控制方法、装置、设备及介质,该方法包括:获取超级计算机的当前功耗数据、温度关联数据和节点功耗关联数据;根据温度关联数据和节点功耗关联数据,确定系统功耗阈值;根据当前功耗数据和系统功耗阈值,确定超级计算机的功耗调整策略;根据功耗调整策略,调整超级计算机的系统功耗。上述方案,通过根据温度关联数据和节点功耗关联数据,确定系统功耗阈值,提高了确定的系统功耗阈值的准确度,进而提高了确定的功耗调整策略的准确度,提高了后续根据功耗调整策略对系统功耗进行控制的准确度。

    运行时计算资源动态扩展方法

    公开(公告)号:CN112631693B

    公开(公告)日:2022-10-04

    申请号:CN201910903881.0

    申请日:2019-09-24

    Abstract: 本发明公开了一种运行时计算资源动态扩展方法,发送资源扩展升级命令给正在运行的原课题;原节点接到升级信号后,进行通信环境清理;等待新进计算资源进行二次通信环境重构通信;新节点由作业管理启动程序,进入动态任务划分区域中;判断为资源升级新节点后,新节点进行通信环境清理;原节点与新节点进行二次通信环境重构;新节点按照动态任务划分规则自动进行分区,选取分区主节点,由分区主节点向全局主节点申请任务;全局主节点在接到原分区和新分区主节点的任务申请后,向原计算资源节点和新计算资源节点均匀分配任务,课题继续正常运行。本发明解决资源调整后的通信环境重构问题,在不中断已运行课题的基础上将空闲的计算资源分配给该课题,并动态分配未完成的任务,达到计算资源的最大化利用。

    运行时计算资源动态扩展方法

    公开(公告)号:CN112631693A

    公开(公告)日:2021-04-09

    申请号:CN201910903881.0

    申请日:2019-09-24

    Abstract: 本发明公开了一种运行时计算资源动态扩展方法,发送资源扩展升级命令给正在运行的原课题;原节点接到升级信号后,进行通信环境清理;等待新进计算资源进行二次通信环境重构通信;新节点由作业管理启动程序,进入动态任务划分区域中;判断为资源升级新节点后,新节点进行通信环境清理;原节点与新节点进行二次通信环境重构;新节点按照动态任务划分规则自动进行分区,选取分区主节点,由分区主节点向全局主节点申请任务;全局主节点在接到原分区和新分区主节点的任务申请后,向原计算资源节点和新计算资源节点均匀分配任务,课题继续正常运行。本发明解决资源调整后的通信环境重构问题,在不中断已运行课题的基础上将空闲的计算资源分配给该课题,并动态分配未完成的任务,达到计算资源的最大化利用。

    基于带时间标签多序列的故障预测方法

    公开(公告)号:CN112445676A

    公开(公告)日:2021-03-05

    申请号:CN201910832296.6

    申请日:2019-09-04

    Abstract: 本发明公开一种基于带时间标签多序列的故障预测方法,包括以下步骤:从故障数据采样中获取故障类型列表;以故障类型列表作为候选序列;获得时间序列数据库;将N的初始值赋为1;计算出N项候选场景在第1条时间序列上逗留的窗口数;得到N项候选场景的支持度,比较N项候选场景的支持度与支持度阀值,删除小于支持度阀值的N项候选场景;找出所有的频繁N项场景;将所有生成的频繁场景组合成一个频繁场景集合S;计算获得置信度,比较置信度与置信度阈值,大于置信度阈值的第i个场景的真子场景与第i个场景产生形如X—>Y的规则并保存至规则列表;输出规则列表中的所有规则。本发明可以分析出可信的故障预测模型,提前感知故障,为故障前瞻处理提供重要的保证。

    数据驱动的自适应检查点优化方法

    公开(公告)号:CN112445635A

    公开(公告)日:2021-03-05

    申请号:CN201910831840.5

    申请日:2019-09-04

    Abstract: 本发明公开一种数据驱动的自适应检查点优化方法,包括以下步骤:以故障历史库中的故障数据作为样本,采用最大似然估计法,计算CPU节点失效分布;根据CPU节点失效分布,建立应用失效分布模型;根据失效分布模型,计算获得最优化检查点间隔;以最优化检查点间隔指导系统进行检查点;当有新故障发生时,更新相关的CPU节点失效分布;跳转至步骤二。本发明通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。

    一种面向异构众核芯片的量化功耗控制方法

    公开(公告)号:CN105487634B

    公开(公告)日:2018-04-10

    申请号:CN201510828279.7

    申请日:2015-11-24

    Abstract: 一种面向异构众核芯片的量化功耗控制方法,包括:获取异构众核芯片在每种状态下的基准功耗数据,建立外部的基础功耗数据表;获取异构众核芯片所支持的所有稳定运行频率的频率档次表;而且针对所有稳定运行频率建立不同频率下运行相同应用代码的芯片功耗存在关系,其中,频率越高,功耗越大,并且最低频率档次工作功耗一定小于最大稳定运行功耗;建立芯片的功耗管理策略作为功耗管理的依据;众核操作系统启动后,将功耗阈值寄存器、功耗预警寄存器均初始化为最大稳定运行功耗;众核芯片操作系统运行时,外部功耗管理系统启动功耗管理过程,将基础功耗表、频率档次表、功耗管理策略通知到各异构众核芯片的操作系统中。

    一种超级计算机与量子计算机协同的软件栈及工作方法

    公开(公告)号:CN115271078A

    公开(公告)日:2022-11-01

    申请号:CN202210933684.5

    申请日:2022-08-04

    Abstract: 一种超级计算机与量子计算机协同的软件栈及工作方法,属于量子计算技术领域。本发明的软件栈包括:经典与量子协同编程框架:在经典编程模型框架中新增量子语言要素的扩展;异构融合编译环境:能够通过要素分析识别出经典与量子混合应用程序中的经典程序部分和量子程序部分;经典与量子协同操作系统:将硬件资源进行了抽象并提供相应的驱动程序;量子指令集:对量子计算机硬件系统进行控制的指令集,与量子物理体系进行耦合。本发明将超级计算机软件模型与量子计算机软件模型融合,即能够保证传统超级计算机正常运行,又能发挥量子加速计算的性能优势,推进量子计算机更广泛应用。

    异构众核处理器温度报警的多级处理方法

    公开(公告)号:CN112445154B

    公开(公告)日:2021-09-17

    申请号:CN201910794749.0

    申请日:2019-08-27

    Abstract: 本发明公开一种异构众核处理器温度报警的多级处理方法,包括以下步骤:处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;当监测系统接收到的温度信息的数值高于设定的温度阈值时,发出报警信息,并对出现预警的处理器节点的主核和从核进行降频降压操作,并在降频降压操作过程中跟踪记录相应处理器节点的温度信息;在设定的时间区间内,比较处理器节点的温度信息和设定的温度阈值,如果处理器节点的温度信息的数值低于设定的温度阈值,则将处理器恢复至正常运行状态,否则,执行下一步。本发明采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。

    大规模并行作业的规模动态扩展控制方法

    公开(公告)号:CN112486576A

    公开(公告)日:2021-03-12

    申请号:CN201910863423.9

    申请日:2019-09-12

    Abstract: 本发明公开一种大规模并行作业的规模动态扩展控制方法,包括以下步骤:S1、申请分配可以用于并行作业的规模扩展的空闲计算资源集合;S2、在新分配的计算资源上,启动作业控制程序;S3、在新分配的计算资源上,启动新的作业任务进程;S4、通知作业系统本进程可以与原来使用的计算资源上的作业任务进程合并;S5、作业系统收到S4中请求后,将原作业任务的进程信息与新分配计算资源上启动的新作业任务的进程信息汇总;S6、作业系统通知可以进行规模扩展处理;S7、重构作业运行时环境。本发明在不终止作业的基础上通过较小的开销动态扩展作业的规模,避免了终止作业带来的计算机时损失和用户体验降低,提升了大规模并行系统的可用性与资源利用率。

    面向大规模系统的多源故障协同分析定位方法

    公开(公告)号:CN112100019A

    公开(公告)日:2020-12-18

    申请号:CN201910863431.3

    申请日:2019-09-12

    Abstract: 本发明公开一种面向大规模系统的多源故障协同分析定位方法,包括以下步骤:S1、对各故障监测模块采集到的故障进行统一分类,给每个故障定义一个故障编码Fid,给每个故障定义上下关联列表Fuplist和Fdownlist,上关联列表Fuplist包含一组会诱发该故障的故障编码Fid,下关联列表Fdownlist包含一组该故障会诱发的故障的Fid;S2、故障分析系统接收来自各故障监测模块发送过来的故障,形成一个当前故障列表;S3、故障分析系统对当前故障列表进行上下关联分析;S10、故障分析系统实现对一个故障Fk的精确定位,跳转S4。本发明提高了系统故障自动分析定位能力,解决了大规模并行系统故障的准确定位难题。

Patent Agency Ranking