-
公开(公告)号:CN116070110A
公开(公告)日:2023-05-05
申请号:CN202211301006.3
申请日:2022-10-24
Applicant: 三星电子株式会社 , 首尔大学校产学协力团
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 提供用于故障恢复的系统、设备和方法。所述系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。