-
公开(公告)号:CN117348712A
公开(公告)日:2024-01-05
申请号:CN202311317820.9
申请日:2023-10-11
Applicant: 无锡江南计算技术研究所
IPC: G06F1/3206 , G06F1/3234 , G06F1/3296 , G06F1/324
Abstract: 本发明实施例公开了一种系统功耗控制方法、装置、设备及介质,该方法包括:获取超级计算机的当前功耗数据、温度关联数据和节点功耗关联数据;根据温度关联数据和节点功耗关联数据,确定系统功耗阈值;根据当前功耗数据和系统功耗阈值,确定超级计算机的功耗调整策略;根据功耗调整策略,调整超级计算机的系统功耗。上述方案,通过根据温度关联数据和节点功耗关联数据,确定系统功耗阈值,提高了确定的系统功耗阈值的准确度,进而提高了确定的功耗调整策略的准确度,提高了后续根据功耗调整策略对系统功耗进行控制的准确度。
-
公开(公告)号:CN112445676A
公开(公告)日:2021-03-05
申请号:CN201910832296.6
申请日:2019-09-04
Applicant: 无锡江南计算技术研究所
IPC: G06F11/30
Abstract: 本发明公开一种基于带时间标签多序列的故障预测方法,包括以下步骤:从故障数据采样中获取故障类型列表;以故障类型列表作为候选序列;获得时间序列数据库;将N的初始值赋为1;计算出N项候选场景在第1条时间序列上逗留的窗口数;得到N项候选场景的支持度,比较N项候选场景的支持度与支持度阀值,删除小于支持度阀值的N项候选场景;找出所有的频繁N项场景;将所有生成的频繁场景组合成一个频繁场景集合S;计算获得置信度,比较置信度与置信度阈值,大于置信度阈值的第i个场景的真子场景与第i个场景产生形如X—>Y的规则并保存至规则列表;输出规则列表中的所有规则。本发明可以分析出可信的故障预测模型,提前感知故障,为故障前瞻处理提供重要的保证。
-
公开(公告)号:CN112445635A
公开(公告)日:2021-03-05
申请号:CN201910831840.5
申请日:2019-09-04
Applicant: 无锡江南计算技术研究所
IPC: G06F11/07
Abstract: 本发明公开一种数据驱动的自适应检查点优化方法,包括以下步骤:以故障历史库中的故障数据作为样本,采用最大似然估计法,计算CPU节点失效分布;根据CPU节点失效分布,建立应用失效分布模型;根据失效分布模型,计算获得最优化检查点间隔;以最优化检查点间隔指导系统进行检查点;当有新故障发生时,更新相关的CPU节点失效分布;跳转至步骤二。本发明通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。
-
公开(公告)号:CN105487634B
公开(公告)日:2018-04-10
申请号:CN201510828279.7
申请日:2015-11-24
Applicant: 无锡江南计算技术研究所
IPC: G06F1/32
Abstract: 一种面向异构众核芯片的量化功耗控制方法,包括:获取异构众核芯片在每种状态下的基准功耗数据,建立外部的基础功耗数据表;获取异构众核芯片所支持的所有稳定运行频率的频率档次表;而且针对所有稳定运行频率建立不同频率下运行相同应用代码的芯片功耗存在关系,其中,频率越高,功耗越大,并且最低频率档次工作功耗一定小于最大稳定运行功耗;建立芯片的功耗管理策略作为功耗管理的依据;众核操作系统启动后,将功耗阈值寄存器、功耗预警寄存器均初始化为最大稳定运行功耗;众核芯片操作系统运行时,外部功耗管理系统启动功耗管理过程,将基础功耗表、频率档次表、功耗管理策略通知到各异构众核芯片的操作系统中。
-
公开(公告)号:CN117349016A
公开(公告)日:2024-01-05
申请号:CN202311318179.0
申请日:2023-10-11
Applicant: 无锡江南计算技术研究所
IPC: G06F9/50
Abstract: 本发明实施例公开了一种资源分配方法、装置、设备及介质。该方法包括:通过获取待处理业务的资源需求数据和各计算节点的资源特征标签;从资源特征标签中提取资源属性标签;根据资源需求数据和所述资源属性标签,确定可选节点集合;对可选节点集合进行筛选,得到目标节点集合;根据目标节点集合,对待处理业务进行资源分配。上述方案,通过引入资源特征标签,根据资源特征标签,确定目标节点集合,提高了确定的目标节点集合的准确度,进而提高了资源分配的合理性。
-
公开(公告)号:CN114217687B
公开(公告)日:2023-07-07
申请号:CN202110325143.X
申请日:2021-03-26
Applicant: 无锡江南计算技术研究所
IPC: G06F1/329
Abstract: 本发明公开一种基于众核处理器的系统功耗动态控制方法,包括以下步骤:S1、提交课题前,设置Pu,并设置Su为0;S2、运行提交的课题,自动记录该课题使用的众核处理器的F0;S3、判断课题是否结束,如课题已结束,跳转至S11;S4、通过资源管理系统获取Pr;S5、比较S4中获取的Pr与Pu;S6、将Fr提升一档,跳转至S9;S7、如果Su为1,则直接挂起该课题运行,跳至S10,否则,设置Su为1,跳至S9;S8、将Fr降低一档,跳至S9;S9、等待T后,跳至S3;S10、将Fr降低两档,恢复课题运行,跳至S3;S11、恢复Fr为F0。本发明解决了超大规模并行机用户课题运行中的系统功耗不受控问题。
-
公开(公告)号:CN112486662B
公开(公告)日:2022-10-04
申请号:CN201910863064.7
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于属性控制的大规模系统隐式并行管理方法,包括对计算资源内隐式的作业管理控制和对虚拟计算资源信息的属性化展示,所述作业管理控制包括以下步骤:S11、启动运行控制域管理服务;S12、启动对虚拟计算资源的运行控制服务;S13、运行控制服务与运行控制域管理服务连接通信,构成计算资源内的独立层次运行控制域;S14、将作业启动请求、运行控制请求和管理请求发送至计算资源;S15、判断计算资源是否为虚拟化使用模式;S16、计算资源宿主机内的运行控制域管理服务接收虚拟机内的运行控制服务发回的各类管理控制结果。本发明提升大规模系统分布式运行控制的可扩展性,解决了因计算资源虚拟化导致的基础计算资源数量增多带来的运行控制扩展性压力问题。
-
公开(公告)号:CN112486662A
公开(公告)日:2021-03-12
申请号:CN201910863064.7
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种基于属性控制的大规模系统隐式并行管理方法,包括对计算资源内隐式的作业管理控制和对虚拟计算资源信息的属性化展示,所述作业管理控制包括以下步骤:S11、启动运行控制域管理服务;S12、启动对虚拟计算资源的运行控制服务;S13、运行控制服务与运行控制域管理服务连接通信,构成计算资源内的独立层次运行控制域;S14、将作业启动请求、运行控制请求和管理请求发送至计算资源;S15、判断计算资源是否为虚拟化使用模式;S16、计算资源宿主机内的运行控制域管理服务接收虚拟机内的运行控制服务发回的各类管理控制结果。本发明提升大规模系统分布式运行控制的可扩展性,解决了因计算资源虚拟化导致的基础计算资源数量增多带来的运行控制扩展性压力问题。
-
公开(公告)号:CN112445636A
公开(公告)日:2021-03-05
申请号:CN201910832284.3
申请日:2019-09-04
Applicant: 无锡江南计算技术研究所
IPC: G06F11/07 , G06F16/215 , G06F16/22 , G06F16/2458
Abstract: 本发明公开一种基于序列模式的DRAM故障关联分析方法,包括以下步骤:对故障数据库中的非DRAM故障进行过滤,获得所需的DRAM故障数据;获得DRAM故障序列数据库;建立序列DRAM故障序列数据库;采用GSP算法,设定支持度,扫描序列DRAM故障序列数据库,获取所有满足支持度要求的DRAM故障序列的支持度;筛选出DRAM严重故障与DRAM严重故障、DRAM非严重故障与DRAM严重故障的序列规则,并计算其置信度;筛选出置信度大于60%的序列规则;如果出现反映DRAM严重故障与DRAM严重故障的序列规则,则表明DRAM严重故障与DRAM严重故障存在关联性;如果未出现反映DRAM非严重故障与DRAM严重故障关联的序列规则,则表明DRAM非严重故障不会导致DRAM严重故障。本发明解决了故障分析与预测关心的预测预警问题,具备高可信性和通用性,优化了分析执行效率。
-
公开(公告)号:CN112445493A
公开(公告)日:2021-03-05
申请号:CN201910800979.3
申请日:2019-08-28
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开一种大规模异构环境下资源环境动态部署方法,包括以下步骤:S1、镜像管理系统生成若干基础镜像模板;S2、资源管理系统在物理节点上运行精简操作系统;S3、资源管理系统将资源环境需求发送给精简操作系统;S4、精简操作系统将该资源环境需求规格化为相应的配置文件和配置脚本;S5、精简操作系统在物理节点上按配置文件快速部署所需资源环境的镜像;S6、精简操作系统中获取对应的配置脚本;S7、运行配置脚本,完成对资源管理系统需求的资源环境的部署;S8、当资源管理系统的资源环境需求发生改变时,转到S3执行。本发明解决了传统大规模异构环境下节点资源启动时间长、用户运行环境需求多样从而导致的用户资源环境繁琐复杂、重构时间过长的问题。
-
-
-
-
-
-
-
-
-