-
公开(公告)号:CN111124749A
公开(公告)日:2020-05-08
申请号:CN201910839696.X
申请日:2019-09-06
Applicant: 无锡江南计算技术研究所
IPC: G06F11/14 , G06F11/30 , G06F9/445 , G06F16/182
Abstract: 本发明属于高性能计算机系统维护领域,尤其涉及紧耦合高性能计算机系统BMC系统自动修复方法及修复系统。其特征在于,包括:管理系统监测到BMC启动失败时,控制其重新启动,从网络文件服务系统获取启动所需的BMC启动文件并将所述BMC启动文件加载到其内存中运行。上述技术方案中,只需将BMC启动所需的BMC启动文件存储在远程文件系统中,如果BMC由于Flash坏块引起系统崩溃导致启动失败时,能够通过远程的网络文件系统获取启动所需的文件实现自动修复。仅需在远程文件系统中占用存储一份BMC启动文件的空间即可供计算机系统中的众多节点的BMC系统共享,节省资源方便维护并且众多节点的BMC可同时从网络文件系统获取BMC文件提高了维护效率。
-
公开(公告)号:CN110750277A
公开(公告)日:2020-02-04
申请号:CN201910848716.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: G06F8/65 , G06F16/178 , G06F16/16 , H04L29/08
Abstract: 本发明公开了一种分布式维护系统的更新系统及方法。本发明涉及的一种分布式维护系统的更新系统,包括管理结点、一级代理、二级代理,所述管理结点上部署一级代理源库和二级代理源库,所述一级代理上部署二级代理镜像库;所述一级代理源库和二级代理源库均包括第一文件服务器和更新客户端,所述镜像库包括第二文件服务器、第一服务程序、第一更新执行体程序和第一守护程序,所述二级代理上部署第二服务程序、第二更新执行体程序和第二守护程序。本发明缩减大规模分布式维护系统的更新时间,降低更新时的网络负载和节点管理成本,提高更新可靠性。
-
公开(公告)号:CN110659182A
公开(公告)日:2020-01-07
申请号:CN201910862948.0
申请日:2019-09-12
Applicant: 无锡江南计算技术研究所
IPC: G06F11/30 , G06F16/21 , G06F16/2458
Abstract: 一种高性能计算机监控方法及系统,属于高性能计算机系统监控技术领域。本发明的方法包括:轮询采集一般监控数据,中断采集重点监控数据;对采集到的一般监控数据和重点监控数据按实时数据和历史数据进行分类存储;根据监控请求,将相应的数据缓存,并进行实时推送。本发明的系统包括:轮询数据采集器、中断数据采集器、代理模块、内存数据库、时序数据库、web后端、消息中间件、web前端、服务器。本发明能够有效提高监控系统的数据实时性及查询效率。
-
公开(公告)号:CN110784368A
公开(公告)日:2020-02-11
申请号:CN201910846454.3
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种基于Memcached的数据采集系统及方法。本发明涉及的一种基于Memcached的数据采集系统,包括:数据层、业务层、表示层、底层;所述底层,与所述数据层连接,用于将底层的数据包发送至数据层;所述数据层,用于接收并存储底层发送的数据包;其中,所述数据层是基于Memcached实现的。所述业务层,与所述数据层连接,用于读取所述数据层中的数据包,并将所述读取的数据包发送至表示层;所述表示层,与所述业务层连接,用于接收所述业务层发送的数据包,并将接收到的数据展示给用户。
-
公开(公告)号:CN110750277B
公开(公告)日:2022-11-15
申请号:CN201910848716.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: G06F8/65 , G06F16/178 , G06F16/16 , H04L67/06 , H04L67/1001 , H04L67/1095 , H04L67/56
Abstract: 本发明公开了一种分布式维护系统的更新系统及方法。本发明涉及的一种分布式维护系统的更新系统,包括管理结点、一级代理、二级代理,所述管理结点上部署一级代理源库和二级代理源库,所述一级代理上部署二级代理镜像库;所述一级代理源库和二级代理源库均包括第一文件服务器和更新客户端,所述镜像库包括第二文件服务器、第一服务程序、第一更新执行体程序和第一守护程序,所述二级代理上部署第二服务程序、第二更新执行体程序和第二守护程序。本发明缩减大规模分布式维护系统的更新时间,降低更新时的网络负载和节点管理成本,提高更新可靠性。
-
公开(公告)号:CN115169541A
公开(公告)日:2022-10-11
申请号:CN202210986917.8
申请日:2022-08-17
Applicant: 无锡江南计算技术研究所
IPC: G06N3/04 , G06F15/173 , G06F9/50 , G06F9/48
Abstract: 一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;多端口本地数据存储单元:用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信;在线远程存储访问单元:用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
-
公开(公告)号:CN110677509B
公开(公告)日:2022-04-12
申请号:CN201910848709.X
申请日:2019-09-09
Applicant: 无锡江南计算技术研究所
IPC: H04L61/50 , H04L61/5007
Abstract: 本发明涉及网络设计与控制领域,具体涉及一种适用于高性能计算机的地址自动配置系统。本发明通过以下技术方案得以实现的:BMC管理系统,所述BMC管理系统包含编号配置模块和基于所述物理编号生成自身地址的地址生成模块,所述BMC管理系统基于自身位置生成下层BMC对应的地址配置文件;BMC系统,每个所述BMC系统均通过独立的物理通路与所述BMC管理系统连接,且获取对应的所述地址配置文件;计算节点,每个所述计算节点的CPU均有一条独立的维护通路与所述BMC系统连接。本发明的目的是提供一种适用于高性能计算机的地址自动配置系统,在让高性能计算机系统的节点和BMC均能实现MAC/IP的自动配置,减少人工维护成本,提高高性能计算机系统部署和维护效率。
-
公开(公告)号:CN110704114A
公开(公告)日:2020-01-17
申请号:CN201910839659.9
申请日:2019-09-06
Applicant: 无锡江南计算技术研究所
IPC: G06F9/4401 , G06F11/14
Abstract: 本发明属于高可靠嵌入式系统设计与应用领域,尤其涉及一种基于冗余的嵌入式系统。包括嵌入式处理器;启动检测与切换电路,通过总线与嵌入式处理器连接;第一存储器,通过总线与启动检测与切换电路连接;第二存储器,通过总线与启动检测与切换电路连接;第一存储器和第二存储器均存储有嵌入式处理器启动所需的引导程序;嵌入式处理器的启动地址映射到启动检测与切换电路,启动检测与切换电路在嵌入式处理器启动时将第一存储器或者第二存储器提供给嵌入式处理器作为当前启动存储器。只需要增加启动检测与切换电路和一个存储器,即可在其中一个存储器中存储的引导程序被损坏时,将嵌入式系统切换至另一个存储器重新启动。
-
公开(公告)号:CN102929742B
公开(公告)日:2015-04-08
申请号:CN201210423061.X
申请日:2012-10-29
Applicant: 无锡江南计算技术研究所
IPC: G06F11/10
Abstract: 一种18颗粒任意位宽存储接口的单颗粒容错方法,包括:采用256+32编码形式的纠错编码矩阵,并采用数据纵向积累校验字的方式进行校验;其中,纠错编码矩阵包括288行32列,其中纠错编码矩阵自上而下分为18个子矩阵,每个子矩阵包括16行32列;其中,在用Hi表示纠错编码矩阵的第i行、用Erj和Eri以及Ebi和Ebj表示单位矩阵情况下,纠错编码矩阵H满足以下3个条件:第一,任意子矩阵内各行向量线性不相关;第二,任意两个子矩阵满足Hi*Eri!=Hj*Erj(i!=j),Erj和Eri的取值范围为{1,2,3,4,5,6,…255};第三,任意三个子矩阵满足Hi*Ebi+Hj*Ebj!=Hk*Erk(i!=j),Ebi,Ebj取值范围为{1,2,4,8,16,32,…128}。本发明提供了一种能够针对18片任意位宽颗粒的存储接口提供单颗粒容错能力、且能高效检出双颗粒故障的单颗粒容错方法。
-
公开(公告)号:CN115345290A
公开(公告)日:2022-11-15
申请号:CN202211017020.0
申请日:2022-08-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明公开了一种实现归约算法的方法及装置,涉及人工智能技术领域,包括:获取从接口发来的访存请求时,判断该访存请求是否是规约读请求;如果是规约读请求,则将一个访存请求按地址拆为多个请求,并悬挂至悬挂缓冲:当收到带规约标志的响应时,在悬挂缓冲中进行规约操作;当收齐多个存储控制器返回的响应时,将规约出的结果作为一个响应返回给接口。本发明使用较小的逻辑代价,高效实现了多核人工智能处理器归约算法,避免了大量重复的访存操作,实现最大化的数据利用率。
-
-
-
-
-
-
-
-
-