一种分布式存储集群的故障存储节点的处理方法

    公开(公告)号:CN116743550A

    公开(公告)日:2023-09-12

    申请号:CN202311010096.5

    申请日:2023-08-11

    Abstract: 本说明书公开了一种分布式存储集群的故障存储节点的处理方法,存储节点包括一个主服务节点及至少一个备用服务节点,且主服务节点及备用服务节点访问同一存储设备,主服务节点对自身进行心跳检测,并获取心跳检测结果,将所述心跳检测结果写入存储设备,根据心跳检测结果,判断主服务节点自身是否出现异常,若是,则停用主服务节点自身提供的服务,以使备用服务节点根据存储设备中写入的心跳检测结果,确定主服务节点异常时,替换主服务节点,作为更新后的主服务节点提供服务。本方法通过当主服务节点出现故障时,使用备用服务节点替换该主服务节点,以保持执行任务的效率,避免分布式存储集群频繁进行数据恢复,提高分布式存储集群的可靠性。

    一种面向分布式训练的缓存加载系统、方法、装置及设备

    公开(公告)号:CN117555697A

    公开(公告)日:2024-02-13

    申请号:CN202410043642.3

    申请日:2024-01-11

    Abstract: 本说明书公开的一种面向分布式训练的缓存加载系统、方法、装置及设备中,管理节点确定各计算节点对应的数据加载任务,并将待训练模型的向无环图以及数据加载任务发送给各计算节点。然后第一子节点用于负责数据加载,先根据有向无环图确定无依赖关系的计算节点需要的数据并进行加载,再当接受到第二子节点的加载请求时,判断该数据是否被加载过,若是,将加载了该数据的第一子节点的标识发送给该第二子节点,若否,则获取待加载的数据后返回给对应的第二子节点,第二子节点根据第一子节点的返回,获取待加载数据,执行训练任务。减少了计算节点向远计算端数据源的访问,降低了远计算端的I/O口堵塞、资源抢占等状况的出现,提高了模型训练的效率。

Patent Agency Ranking