一种流水线检查点操作方法及其操作系统

    公开(公告)号:CN119623585A

    公开(公告)日:2025-03-14

    申请号:CN202411749503.9

    申请日:2024-12-02

    Abstract: 本发明属于计算机相关技术领域,其公开了一种流水线检查点操作方法及其操作系统,方法包括:所有计算节点同步启动检查点操作,并在计算节点的训练空闲时间段执行对应计算节点的检查点操作;其中,计算节点的训练空闲时间段为该计算节点在等待其他计算节点反馈训练数据的时间段;检查点操作包括序列化、编码和分发三个任务,序列化为将对应计算节点的当前状态数据逐步转换为可存储的字节流,编码为将序列化后的数据进行编码处理,分发为将编码后的数据分发至存储节点以进行存储,检查点操作的每个任务由不同的计算资源负责,且不同任务通过流水线方式并行执行。通过以上方式,可以在不影响训练效率的前提下,有效地保存检查点。

Patent Agency Ranking