-
公开(公告)号:CN113485861B
公开(公告)日:2024-06-21
申请号:CN202110772240.3
申请日:2021-07-08
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种基于资源优化策略的基层故障诊断方法及装置,该方法包括构建整机故障诊断树,整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;当各第一级管理单元采集到总错监控数据时,对总错监控数据进行故障解析,确定故障数据信息;生成各故障数据信息对应的各故障诊断结果,并将各故障诊断结果发送至第二级管理单元;第二级管理单元对接收到的各故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;第三级管理单元基于接收到的过滤诊断结果生成并展示故障报文。本发明实现了采用分布式故障处理方式代替原有集中式故障处理方式,以分级并发方式实现了诊断数据的高效汇集。
-
公开(公告)号:CN110750277B
公开(公告)日:2022-11-15
申请号:CN201910848716.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: G06F8/65 , G06F16/178 , G06F16/16 , H04L67/06 , H04L67/1001 , H04L67/1095 , H04L67/56
Abstract: 本发明公开了一种分布式维护系统的更新系统及方法。本发明涉及的一种分布式维护系统的更新系统,包括管理结点、一级代理、二级代理,所述管理结点上部署一级代理源库和二级代理源库,所述一级代理上部署二级代理镜像库;所述一级代理源库和二级代理源库均包括第一文件服务器和更新客户端,所述镜像库包括第二文件服务器、第一服务程序、第一更新执行体程序和第一守护程序,所述二级代理上部署第二服务程序、第二更新执行体程序和第二守护程序。本发明缩减大规模分布式维护系统的更新时间,降低更新时的网络负载和节点管理成本,提高更新可靠性。
-
公开(公告)号:CN110677509B
公开(公告)日:2022-04-12
申请号:CN201910848709.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: H04L61/50 , H04L61/5007
Abstract: 本发明涉及网络设计与控制领域,具体涉及一种适用于高性能计算机的地址自动配置系统。本发明通过以下技术方案得以实现的:BMC管理系统,所述BMC管理系统包含编号配置模块和基于所述物理编号生成自身地址的地址生成模块,所述BMC管理系统基于自身位置生成下层BMC对应的地址配置文件;BMC系统,每个所述BMC系统均通过独立的物理通路与所述BMC管理系统连接,且获取对应的所述地址配置文件;计算节点,每个所述计算节点的CPU均有一条独立的维护通路与所述BMC系统连接。本发明的目的是提供一种适用于高性能计算机的地址自动配置系统,在让高性能计算机系统的节点和BMC均能实现MAC/IP的自动配置,减少人工维护成本,提高高性能计算机系统部署和维护效率。
-
公开(公告)号:CN110704114A
公开(公告)日:2020-01-17
申请号:CN201910839659.9
申请日:2019-09-06
Applicant: 无锡江南计算技术研究所
IPC: G06F9/4401 , G06F11/14
Abstract: 本发明属于高可靠嵌入式系统设计与应用领域,尤其涉及一种基于冗余的嵌入式系统。包括嵌入式处理器;启动检测与切换电路,通过总线与嵌入式处理器连接;第一存储器,通过总线与启动检测与切换电路连接;第二存储器,通过总线与启动检测与切换电路连接;第一存储器和第二存储器均存储有嵌入式处理器启动所需的引导程序;嵌入式处理器的启动地址映射到启动检测与切换电路,启动检测与切换电路在嵌入式处理器启动时将第一存储器或者第二存储器提供给嵌入式处理器作为当前启动存储器。只需要增加启动检测与切换电路和一个存储器,即可在其中一个存储器中存储的引导程序被损坏时,将嵌入式系统切换至另一个存储器重新启动。
-
公开(公告)号:CN113485861A
公开(公告)日:2021-10-08
申请号:CN202110772240.3
申请日:2021-07-08
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种基于资源优化策略的基层故障诊断方法及装置,该方法包括构建整机故障诊断树,整机故障诊断树包括由系统基层至顶层分别设置的第一级管理单元、第二级管理单元、第三级管理单元;当各第一级管理单元采集到总错监控数据时,对总错监控数据进行故障解析,确定故障数据信息;生成各故障数据信息对应的各故障诊断结果,并将各故障诊断结果发送至第二级管理单元;第二级管理单元对接收到的各故障诊断结果进行过滤后,将过滤诊断结果发送至第三级管理单元;第三级管理单元基于接收到的过滤诊断结果生成并展示故障报文。本发明实现了采用分布式故障处理方式代替原有集中式故障处理方式,以分级并发方式实现了诊断数据的高效汇集。
-
公开(公告)号:CN110784368A
公开(公告)日:2020-02-11
申请号:CN201910846454.3
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种基于Memcached的数据采集系统及方法。本发明涉及的一种基于Memcached的数据采集系统,包括:数据层、业务层、表示层、底层;所述底层,与所述数据层连接,用于将底层的数据包发送至数据层;所述数据层,用于接收并存储底层发送的数据包;其中,所述数据层是基于Memcached实现的。所述业务层,与所述数据层连接,用于读取所述数据层中的数据包,并将所述读取的数据包发送至表示层;所述表示层,与所述业务层连接,用于接收所述业务层发送的数据包,并将接收到的数据展示给用户。
-
公开(公告)号:CN110597650A
公开(公告)日:2019-12-20
申请号:CN201910846463.2
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
Abstract: 一种计算机系统中基于自学习的并行故障定位方法及系统,属于高性能计算机维护技术领域。本发明的方法包括:查找故障点;并行对各个故障点的故障现象采用专家诊断模块进行诊断,若诊断有结果,则输出结果;否则采用智能诊断模块进行诊断,若诊断有结果,则输出诊断结果,并将故障现象及其诊断结果加入到专家诊断模块的故障库中。本发明的系统包括多个并行的分布式celery系统,分布式celery系统设有故障点查找模块,故障点查找模块连接有多个并行的单点故障诊断模块,单点故障诊断模块中包括专家诊断模块和智能诊断模块。本发明增强了高性能计算机系统的故障诊断维护能力,大大降低维护人员的工作难度。
-
公开(公告)号:CN111124749A
公开(公告)日:2020-05-08
申请号:CN201910839696.X
申请日:2019-09-06
Applicant: 无锡江南计算技术研究所
IPC: G06F11/14 , G06F11/30 , G06F9/445 , G06F16/182
Abstract: 本发明属于高性能计算机系统维护领域,尤其涉及紧耦合高性能计算机系统BMC系统自动修复方法及修复系统。其特征在于,包括:管理系统监测到BMC启动失败时,控制其重新启动,从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。上述技术方案中,只需将BMC启动所需的BMC启动文件存储在远程文件系统中,如果BMC由于Flash坏块引起系统崩溃导致启动失败时,能够通过远程的网络文件系统获取启动所需的文件实现自动修复。仅需在远程文件系统中占用存储一份BMC启动文件的空间即可供计算机系统中的众多节点的BMC系统共享,节省资源方便维护并且众多节点的BMC可同时从网络文件系统获取BMC文件提高了维护效率。
-
公开(公告)号:CN110750277A
公开(公告)日:2020-02-04
申请号:CN201910848716.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: G06F8/65 , G06F16/178 , G06F16/16 , H04L29/08
Abstract: 本发明公开了一种分布式维护系统的更新系统及方法。本发明涉及的一种分布式维护系统的更新系统,包括管理结点、一级代理、二级代理,所述管理结点上部署一级代理源库和二级代理源库,所述一级代理上部署二级代理镜像库;所述一级代理源库和二级代理源库均包括第一文件服务器和更新客户端,所述镜像库包括第二文件服务器、第一服务程序、第一更新执行体程序和第一守护程序,所述二级代理上部署第二服务程序、第二更新执行体程序和第二守护程序。本发明缩减大规模分布式维护系统的更新时间,降低更新时的网络负载和节点管理成本,提高更新可靠性。
-
公开(公告)号:CN110659182A
公开(公告)日:2020-01-07
申请号:CN201910862948.0
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
IPC: G06F11/30 , G06F16/21 , G06F16/2458
Abstract: 一种高性能计算机监控方法及系统,属于高性能计算机系统监控技术领域。本发明的方法包括:轮询采集一般监控数据,中断采集重点监控数据;对采集到的一般监控数据和重点监控数据按实时数据和历史数据进行分类存储;根据监控请求,将相应的数据缓存,并进行实时推送。本发明的系统包括:轮询数据采集器、中断数据采集器、代理模块、内存数据库、时序数据库、web后端、消息中间件、web前端、服务器。本发明能够有效提高监控系统的数据实时性及查询效率。
-
-
-
-
-
-
-
-
-