异构众核处理器温度报警的多级处理方法

    公开(公告)号:CN112445154B

    公开(公告)日:2021-09-17

    申请号:CN201910794749.0

    申请日:2019-08-27

    Abstract: 本发明公开一种异构众核处理器温度报警的多级处理方法,包括以下步骤:处理器的监测系统通过温度传感器实时检测处理器的温度信息,并将检测到的温度信息传输至监测系统;当监测系统接收到的温度信息的数值高于设定的温度阈值时,发出报警信息,并对出现预警的处理器节点的主核和从核进行降频降压操作,并在降频降压操作过程中跟踪记录相应处理器节点的温度信息;在设定的时间区间内,比较处理器节点的温度信息和设定的温度阈值,如果处理器节点的温度信息的数值低于设定的温度阈值,则将处理器恢复至正常运行状态,否则,执行下一步。本发明采用多级处理方法避免了过早采取开销较大的控制手段,兼顾了有效性和开销。

    一种基于可变网络拓扑的并行作业资源调度方法

    公开(公告)号:CN105468456B

    公开(公告)日:2019-04-23

    申请号:CN201510828332.3

    申请日:2015-11-24

    Abstract: 一种基于可变网络拓扑的并行作业资源调度方法,包括:通过系统计算网络的网络监控发现系统网络拓扑发生变化;网络监控向作业资源调度服务推送网络拓扑变化信息,包括最新的网络拓扑;作业资源调度收到网络拓扑变化信息,对最新的拓扑信息进行预处理,依据网络各节点的拓扑关系形成临时计算资源池信息;与当前计算资源池匹配是否需要进行计算资源池重构,如果需要进行计算资源池重构则则冻结作业资源调度服务,暂停系统的作业资源调度,保证系统服务数据的一致性;启动快速计算资源池重构,使用临时计算资源池替换正式计算资源池;形成新的计算资源池;随后解冻作业资源调度服务,利用新的计算资源池继续响应系统的各种作业资源调度请求。

    一种规模动态可伸缩的高可用并行作业控制方法

    公开(公告)号:CN105426249A

    公开(公告)日:2016-03-23

    申请号:CN201510826934.5

    申请日:2015-11-24

    CPC classification number: G06F9/5027 G06F9/3885

    Abstract: 本发明提供了一种规模动态可伸缩的高可用并行作业控制方法,包括:第一步骤,根据并行计算中作业的规模,确定并行作业控制中所需启动的作业分控数量;第二步骤,作业总控动态启动第一步骤中确定的需要数量的作业分控,将并行作业使用的计算节点按组划分,分配给作业分控进行按组管理,从而形成一个多层的作业任务控制树;第三步骤,在作业运行过程中,执行作业资源变更;第四步骤,作业控制模块将第三步骤执行后的作业资源变更情况通知到底层并行语言,由底层并行语言与作业控制协同进行并行作业的运行环境重构,使并行作业在环境重构后的新作业资源规模下继续运行。

    基于序列模式的DRAM故障关联分析方法

    公开(公告)号:CN112445636A

    公开(公告)日:2021-03-05

    申请号:CN201910832284.3

    申请日:2019-09-04

    Abstract: 本发明公开一种基于序列模式的DRAM故障关联分析方法,包括以下步骤:对故障数据库中的非DRAM故障进行过滤,获得所需的DRAM故障数据;获得DRAM故障序列数据库;建立序列DRAM故障序列数据库;采用GSP算法,设定支持度,扫描序列DRAM故障序列数据库,获取所有满足支持度要求的DRAM故障序列的支持度;筛选出DRAM严重故障与DRAM严重故障、DRAM非严重故障与DRAM严重故障的序列规则,并计算其置信度;筛选出置信度大于60%的序列规则;如果出现反映DRAM严重故障与DRAM严重故障的序列规则,则表明DRAM严重故障与DRAM严重故障存在关联性;如果未出现反映DRAM非严重故障与DRAM严重故障关联的序列规则,则表明DRAM非严重故障不会导致DRAM严重故障。本发明解决了故障分析与预测关心的预测预警问题,具备高可信性和通用性,优化了分析执行效率。

    大规模异构环境下资源环境动态部署方法

    公开(公告)号:CN112445493A

    公开(公告)日:2021-03-05

    申请号:CN201910800979.3

    申请日:2019-08-28

    Abstract: 本发明公开一种大规模异构环境下资源环境动态部署方法,包括以下步骤:S1、镜像管理系统生成若干基础镜像模板;S2、资源管理系统在物理节点上运行精简操作系统;S3、资源管理系统将资源环境需求发送给精简操作系统;S4、精简操作系统将该资源环境需求规格化为相应的配置文件和配置脚本;S5、精简操作系统在物理节点上按配置文件快速部署所需资源环境的镜像;S6、精简操作系统中获取对应的配置脚本;S7、运行配置脚本,完成对资源管理系统需求的资源环境的部署;S8、当资源管理系统的资源环境需求发生改变时,转到S3执行。本发明解决了传统大规模异构环境下节点资源启动时间长、用户运行环境需求多样从而导致的用户资源环境繁琐复杂、重构时间过长的问题。

    计算机状态更新方法、装置及分布式系统

    公开(公告)号:CN102455991B

    公开(公告)日:2013-11-27

    申请号:CN201010527361.3

    申请日:2010-10-28

    Abstract: 本发明公开了一种计算机状态更新方法、装置及分布式系统。一种计算机状态更新方法,包括:接收计算机代理节点上报的工作状态信息;将工作状态信息表示的工作状态确定为计算机的当前工作状态;比较当前工作状态与前一次接收工作状态信息后确定的该计算机的工作状态,比较结果满足预设条件时,生成计算机工作状态变更信息并发送给总控,由总控更新记录在所述总控内的该计算机的工作状态。应用上述技术方案,将现有的组间并行、组内串行方式转变为组间并行、组内并行方式,当计算机工作状态发生变更时,实时发送计算机状态变更信息给总控,总控进而更新其该计算机的工作状态,解决了现有技术方案无法实现实时监测和更新计算机的工作状态的问题。

    计算机状态更新方法、装置及分布式系统

    公开(公告)号:CN102455991A

    公开(公告)日:2012-05-16

    申请号:CN201010527361.3

    申请日:2010-10-28

    Abstract: 本发明公开了一种计算机状态更新方法、装置及分布式系统。一种计算机状态更新方法,包括:接收计算机代理节点上报的工作状态信息;将工作状态信息表示的工作状态确定为计算机的当前工作状态;比较当前工作状态与前一次接收工作状态信息后确定的该计算机的工作状态,比较结果满足预设条件时,生成计算机工作状态变更信息并发送给总控,由总控更新记录在所述总控内的该计算机的工作状态。应用上述技术方案,将现有的组间并行、组内串行方式转变为组间并行、组内并行方式,当计算机工作状态发生变更时,实时发送计算机状态变更信息给总控,总控进而更新其该计算机的工作状态,解决了现有技术方案无法实现实时监测和更新计算机的工作状态的问题。

    基于带时间标签多序列的故障预测方法

    公开(公告)号:CN112445676A

    公开(公告)日:2021-03-05

    申请号:CN201910832296.6

    申请日:2019-09-04

    Abstract: 本发明公开一种基于带时间标签多序列的故障预测方法,包括以下步骤:从故障数据采样中获取故障类型列表;以故障类型列表作为候选序列;获得时间序列数据库;将N的初始值赋为1;计算出N项候选场景在第1条时间序列上逗留的窗口数;得到N项候选场景的支持度,比较N项候选场景的支持度与支持度阀值,删除小于支持度阀值的N项候选场景;找出所有的频繁N项场景;将所有生成的频繁场景组合成一个频繁场景集合S;计算获得置信度,比较置信度与置信度阈值,大于置信度阈值的第i个场景的真子场景与第i个场景产生形如X—>Y的规则并保存至规则列表;输出规则列表中的所有规则。本发明可以分析出可信的故障预测模型,提前感知故障,为故障前瞻处理提供重要的保证。

    数据驱动的自适应检查点优化方法

    公开(公告)号:CN112445635A

    公开(公告)日:2021-03-05

    申请号:CN201910831840.5

    申请日:2019-09-04

    Abstract: 本发明公开一种数据驱动的自适应检查点优化方法,包括以下步骤:以故障历史库中的故障数据作为样本,采用最大似然估计法,计算CPU节点失效分布;根据CPU节点失效分布,建立应用失效分布模型;根据失效分布模型,计算获得最优化检查点间隔;以最优化检查点间隔指导系统进行检查点;当有新故障发生时,更新相关的CPU节点失效分布;跳转至步骤二。本发明通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。

    一种面向异构众核芯片的量化功耗控制方法

    公开(公告)号:CN105487634B

    公开(公告)日:2018-04-10

    申请号:CN201510828279.7

    申请日:2015-11-24

    Abstract: 一种面向异构众核芯片的量化功耗控制方法,包括:获取异构众核芯片在每种状态下的基准功耗数据,建立外部的基础功耗数据表;获取异构众核芯片所支持的所有稳定运行频率的频率档次表;而且针对所有稳定运行频率建立不同频率下运行相同应用代码的芯片功耗存在关系,其中,频率越高,功耗越大,并且最低频率档次工作功耗一定小于最大稳定运行功耗;建立芯片的功耗管理策略作为功耗管理的依据;众核操作系统启动后,将功耗阈值寄存器、功耗预警寄存器均初始化为最大稳定运行功耗;众核芯片操作系统运行时,外部功耗管理系统启动功耗管理过程,将基础功耗表、频率档次表、功耗管理策略通知到各异构众核芯片的操作系统中。

Patent Agency Ranking