-
公开(公告)号:CN109328340A
公开(公告)日:2019-02-12
申请号:CN201780039033.9
申请日:2017-09-30
Applicant: 华为技术有限公司
IPC: G06F11/22
Abstract: 本申请提供了一种内存故障的检测方法、装置和服务器。该方法包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号;关闭第一漏斗计数器的中断开关;在关闭第一漏斗计数器的中断开关的时间达到预设时间后,对第一漏斗计数器的计数值清零后,开启第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到第二阈值时发送的第二中断信号,第二漏斗计数器用于对第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在第二漏斗计数器与第一漏斗计数器为同一漏斗计数器,且第二RANK和第一RANK也为同一RANK的情况下,确定第一RANK发生硬件故障。本申请能更准确地确定发生硬件故障的内存。
-
公开(公告)号:CN107077408A
公开(公告)日:2017-08-18
申请号:CN201780000172.0
申请日:2017-01-19
Applicant: 华为技术有限公司
Inventor: 宋刚
IPC: G06F11/22
CPC classification number: G06F9/4812 , G06F9/4401 , G06F13/24 , G06F2213/2404 , G06F11/2215
Abstract: 本发明公开了一种故障处理的方法、计算机系统、基板管理控制器和系统。该方法包括:根据可纠正错误的收集信息,确定发生可纠正错误风暴;关闭可纠正错误集合中的可纠正错误的产生模块的SMI使能,其中,该可纠正错误集合包括该可纠正错误风暴相关的可纠正错误;向BMC发送SMI使能关闭通知信息;接收该BMC在接收到该SMI使能关闭通知信息预定时间后发送的SMI使能打开通知信息;根据该SMI使能打开通知信息,打开已关闭的可纠正错误的产生模块的SMI使能。本发明实施例的故障处理的方法、BIOS、BMC和系统,能够有效地处理可纠正错误风暴。
-
公开(公告)号:CN104486100A
公开(公告)日:2015-04-01
申请号:CN201410712709.4
申请日:2014-11-28
Applicant: 华为技术有限公司
Inventor: 宋刚
IPC: H04L12/24
CPC classification number: G06F9/48
Abstract: 本发明公开了一种故障处理装置及方法,属于计算机技术领域。所述方法包括:统计服务器中的硬件模块在预定时间段内产生可纠正故障中断的频率;检测频率是否大于禁能阈值;当检测到频率大于禁能阈值时,将硬件模块的可纠正故障中断由使能状态切换为禁能状态;解决了当硬件模块在短时间内发生大量可纠正故障时,操作系统将处于持续的故障处理状态,占用了操作系统大量的处理资源,甚至导致操作系统不能正常运行的问题;达到了硬件模块在短时间内发生大量可纠正故障时,减少产生可纠正故障中断,使操作系统能够正常运行,提高操作系统的运行效率的效果。
-
公开(公告)号:CN109328340B
公开(公告)日:2021-06-08
申请号:CN201780039033.9
申请日:2017-09-30
Applicant: 华为技术有限公司
IPC: G06F11/22
Abstract: 本申请提供了一种内存故障的检测方法、装置和服务器。该方法包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号;关闭第一漏斗计数器的中断开关;在关闭第一漏斗计数器的中断开关的时间达到预设时间后,对第一漏斗计数器的计数值清零后,开启第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到第二阈值时发送的第二中断信号,第二漏斗计数器用于对第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在第二漏斗计数器与第一漏斗计数器为同一漏斗计数器,且第二RANK和第一RANK也为同一RANK的情况下,确定第一RANK发生硬件故障。本申请能更准确地确定发生硬件故障的内存。
-
公开(公告)号:CN104486100B
公开(公告)日:2018-07-13
申请号:CN201410712709.4
申请日:2014-11-28
Applicant: 华为技术有限公司
Inventor: 宋刚
IPC: H04L12/24
CPC classification number: G06F9/48
Abstract: 本发明公开了一种故障处理装置及方法,属于计算机技术领域。所述方法包括:统计服务器中的硬件模块在预定时间段内产生可纠正故障中断的频率;检测频率是否大于禁能阈值;当检测到频率大于禁能阈值时,将硬件模块的可纠正故障中断由使能状态切换为禁能状态;解决了当硬件模块在短时间内发生大量可纠正故障时,操作系统将处于持续的故障处理状态,占用了操作系统大量的处理资源,甚至导致操作系统不能正常运行的问题;达到了硬件模块在短时间内发生大量可纠正故障时,减少产生可纠正故障中断,使操作系统能够正常运行,提高操作系统的运行效率的效果。
-
公开(公告)号:CN107357671A
公开(公告)日:2017-11-17
申请号:CN201710454179.1
申请日:2014-06-24
Applicant: 华为技术有限公司
Inventor: 宋刚
CPC classification number: G06F11/079 , G06F11/0706 , G06F11/0751 , G06F11/0772 , G06F11/0778 , G06F11/0793 , G06F11/0757 , G06F11/3476
Abstract: 本发明实施例提供了一种故障处理方法、相关装置及计算机,计算机中的基板管理控制器(12)在确定所述计算机死机时,能够向计算机中的处理器(11)发送读请求消息,所述读请求消息用于请求读取所述处理器(11)记录的第一错误数据,并接收所述处理器(11)返回的读响应消息,根据所述读响应消息,获得所述处理器(11)记录的所述第一错误数据。本发明实施例无需利用操作系统,通过基板管理控制器(12)就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
-
公开(公告)号:CN105659215B
公开(公告)日:2017-08-25
申请号:CN201480056020.9
申请日:2014-06-24
Applicant: 华为技术有限公司
Inventor: 宋刚
IPC: G06F11/34
CPC classification number: G06F11/079 , G06F11/0706 , G06F11/0751 , G06F11/0772 , G06F11/0778 , G06F11/0793
Abstract: 本发明实施例提供了一种故障处理方法、相关装置及计算机,计算机中的基板管理控制器(12)在确定所述计算机死机时,能够向计算机中的处理器(11)发送读请求消息,所述读请求消息用于请求读取所述处理器(11)记录的第一错误数据,并接收所述处理器(11)返回的读响应消息,根据所述读响应消息,获得所述处理器(11)记录的所述第一错误数据。本发明实施例无需利用操作系统,通过基板管理控制器(12)就实现了计算机死机后计算机中的错误数据的获取,解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。
-
-
-
-
-
-