一种基于paxos算法的去中心化HPC计算集群管理方法及系统

    公开(公告)号:CN111200518B

    公开(公告)日:2022-10-18

    申请号:CN201911352764.6

    申请日:2019-12-25

    Abstract: 本发明公开了一种基于paxos算法的去中心化HPC计算集群管理方法及系统,该方法包括部署主管理节点和多个备管理节点,并设置集群管理选举机制;集群管理选举机制包括:主管理节点发出心跳连接的回复超出预设值,备管理节点根据paxos算法进行选举以产生新的主管理节点;原主管理节点下线,新的主管理节点对剩余备管理节点进行心跳监控。本发明可以将HPC高性能作业调度集群从单主中心化集群模式优化成去中心化集群模式,模式的改变使集群可用性大大提升,不再受到单主集群中心化模式单点故障的限制,让集群容错能力有几个量级的提升,使故障更加的切合实际场景,为集群提供自动高可用,不再需要借助第三方工具来完成高可用。

    任务调度处理方法、装置、集群系统及可读存储介质

    公开(公告)号:CN112035238A

    公开(公告)日:2020-12-04

    申请号:CN202010957856.3

    申请日:2020-09-11

    Abstract: 本申请提供一种任务调度处理方法、装置、集群系统及可读存储介质,涉及集群任务处理技术领域。方法包括:获取集群系统中的调度节点发送的作业任务,作业任务为集群系统中的提交节点根据任务参数生成的HPC任务或AI任务;根据作业任务中的表征任务类型的标识,确定作业任务的任务类型;调用与任务类型对应的前处理组件,初始化任务环境,得到用于执行HPC任务或AI任务的运行环境;根据作业任务的任务内容,通过运行环境执行作业任务,得到执行结果,能够改善计算节点执行的任务类型单一,硬件资源利用率低的问题。

    一种远程交互的方法和装置

    公开(公告)号:CN111212117A

    公开(公告)日:2020-05-29

    申请号:CN201911341903.5

    申请日:2019-12-24

    Abstract: 本发明提出了一种远程交互的方法和装置,该远程交互的方法用于集群管理系统,集群管理系统包括集群客户端和服务端,集群客户端和服务端之间建立有Websocket长连接,该方法包括:集群客户端通过Websocket长连接接收服务端发送的控制指令;集群客户端执行控制指令,得到反馈数据;集群客户端向服务端发送反馈数据。本发明通过集群客户端和服务端之间的Websocket长连接,从而服务端可直接向客户端发送操作指令、文件等数据,最终达到对集群实时管理的目的。

    液冷服务器
    24.
    发明授权

    公开(公告)号:CN104484019B

    公开(公告)日:2019-04-30

    申请号:CN201410690872.5

    申请日:2014-11-25

    Abstract: 本发明公开了一种液冷服务器,该服务器包括:第一壳体和第二壳体,其中,第二壳体容纳有第一壳体;第一壳体的内部安装有服务器主板、CPU、多个电子元件;第一壳体的内部充满硅油;在第一壳体的顶部和第二壳体的顶部之间形成有用于将来自第一壳体的硅油导入至第二壳体的通道,其中,该通道、该第二壳体包括用于将来自第一壳体的硅油进行冷却的冷却装置;第二壳体进一步包括用于将经过冷却的硅油回流至第一壳体的管道;该通道和该管道使硅油在第一壳体与第二壳体之间形成液冷循环。本发明通过在硅油从第一壳体向第二壳体转移时对其进行自然冷却,避免了繁琐的冷却过程和复杂的冷却步骤。

    锁紧装置
    25.
    发明公开

    公开(公告)号:CN103362376A

    公开(公告)日:2013-10-23

    申请号:CN201310339616.7

    申请日:2013-08-06

    Abstract: 本发明涉及一种锁紧装置,尤其涉及用于计算刀片插拔安装固定用的锁紧装置,其包括壳体(1),位于所述壳体(1)中的弹簧(5),还包括位于所述壳体(1)中的驱动机构(6),相对于所述壳体(1)可滑动的锁舌(4)。此装置可以自动锁紧且解锁时操作空间小,并且其结构紧凑、尺寸小,特别是其可置于薄的装置中。

    单功能PCI设备的多功能模拟实现方法和装置

    公开(公告)号:CN102043738B

    公开(公告)日:2013-10-02

    申请号:CN200910235676.8

    申请日:2009-10-12

    Abstract: 本发明提供一种单功能PCI设备的多功能模拟实现方法和装置,其中实现方法包括下列步骤:PCI设备驱动程序根据预先设置的参数确定单功能PCI设备要模拟成多功能设备的数量;在单功能PCI设备寄存器中添加相应数量的控制寄存器、状态寄存器和中断控制器,分别用于对每个多功能设备的模拟接口进行操作;以及在PCI设备驱动程序中将单功能PCI设备向操作系统内核注册为相应数量的多功能设备,产生相应数量的模拟接口。本发明通过将物理特性为单功能PCI设备在驱动程序里模拟成多功能PCI设备,从而使用户不需改变使用方式,更加容易地操作、控制单功能PCI设备。

    过滤网卡自动化测试方法和系统

    公开(公告)号:CN101697521B

    公开(公告)日:2013-08-07

    申请号:CN200910093982.2

    申请日:2009-09-25

    Abstract: 本发明提供一种过滤网卡自动化测试方法和系统,该方法包括:维护一组五元组规则表;按照在五元组规则表中的一项五元组或随机生成的一项五元组构造报文,并统计过滤网卡针对所构造的报文应产生的信息;将统计出的信息添加到报文尾部作为报文的数据部分并将所得到的报文发送出去;以及使用过滤网卡接收报文,并将报文的数据部分中的统计出的信息与过滤网卡所产生的真实信息进行比较,确定过滤网卡的功能是否正确。通过本发明,能够及时地发现过滤网卡所存在的问题,从而提高了系统效率,改善了系统性能。

    用于多个集群的作业调度管理系统及方法

    公开(公告)号:CN101645022B

    公开(公告)日:2013-07-10

    申请号:CN200910091830.9

    申请日:2009-08-28

    Abstract: 本发明提供一种用于多个集群的作业调度管理系统和方法,其中,该方法包括以下步骤:表示层门户界面接收用户请求并且将用户请求提供给作业管理中间件;作业管理中间件接收来自表示层门户界面的用户请求,将用户请求解释为操作请求并将操作请求提供给调度策略中间件;调度策略中间件根据来自作业管理中间件的操作请求进行策略配置,将配置信息应用至一个或多个调度系统以进行作业调度;一个或多个调度系统根据调度策略中间件配置的策略信息进行作业调度并将响应结果反馈给表示层门户界面。本发明还提供一种用于多个集群的作业调度管理系统。本发明通过添加中间件实现了多个集群的统一远程管理。

    基于零拷贝方式的多应用程序报文接收方法和装置

    公开(公告)号:CN101877666B

    公开(公告)日:2013-05-08

    申请号:CN200910238009.5

    申请日:2009-11-13

    Abstract: 本发明提供一种基于零拷贝方式的多应用程序报文接收方法和装置,其中接收方法包括以下步骤:在网卡驱动程序中申请连续内存空间作为报文接收的缓冲区队列;在网卡相关寄存器中设置一个缓冲区队列写指针寄存器和多个缓冲区队列读指针寄存器,每个缓冲区队列读指针寄存器对应一个应用程序;网卡接收报文,如果缓冲区队列未存储满则将报文存储在缓冲区队列,同时更新写指针寄存器;以及每个应用程序分别判断是否有要接收的报文存储在缓冲区队列中,如果有,则将报文从缓冲区队列中取走,同时网卡驱动程序更新应用程序对应的缓冲区队列读指针寄存器。本发明能够基于零拷贝方式,实现多个应用程序同时进行报文接收,明显降低了CPU的占有率。

    存储设备硬件调试的方法及系统

    公开(公告)号:CN101697285B

    公开(公告)日:2013-03-20

    申请号:CN200910235297.9

    申请日:2009-09-30

    Abstract: 本发明提出了一种存储设备硬件调试的方法及系统。该方法包括以下步骤:建立被调试存储设备的镜像,该镜像的存储单元与被调试存储设备的存储单元一一映射;对被调试存储设备和镜像进行读写操作;根据镜像定位被调试存储设备的缺陷。本发明所提出的存储设备硬件调试的方法及系统,可以辅助高速设备的硬件调试,使调试难度降低,缩减硬件的开发周期。

Patent Agency Ranking