-
公开(公告)号:CN119623585A
公开(公告)日:2025-03-14
申请号:CN202411749503.9
申请日:2024-12-02
Applicant: 华中科技大学
Abstract: 本发明属于计算机相关技术领域,其公开了一种流水线检查点操作方法及其操作系统,方法包括:所有计算节点同步启动检查点操作,并在计算节点的训练空闲时间段执行对应计算节点的检查点操作;其中,计算节点的训练空闲时间段为该计算节点在等待其他计算节点反馈训练数据的时间段;检查点操作包括序列化、编码和分发三个任务,序列化为将对应计算节点的当前状态数据逐步转换为可存储的字节流,编码为将序列化后的数据进行编码处理,分发为将编码后的数据分发至存储节点以进行存储,检查点操作的每个任务由不同的计算资源负责,且不同任务通过流水线方式并行执行。通过以上方式,可以在不影响训练效率的前提下,有效地保存检查点。
-
公开(公告)号:CN119808891A
公开(公告)日:2025-04-11
申请号:CN202411880417.1
申请日:2024-12-19
Applicant: 华中科技大学
Abstract: 本发明属于分布式系统优化与调度相关技术领域,具体涉及一种动态计算环境下深度神经网络的分布式并行训练方法,包括:通过最小化异步流水线的实际收敛时间,确定模型切分方案,并将该切分方案对应的各模型切片分发至对应设备节点上,其中,上述实际收敛时间为预设收敛误差所对应的迭代次数上限与单次迭代所需的流水线最优运行时间的乘积;每个设备节点上配置有已训练的轻量级随机森林模型,用于评估位于该设备节点的额外负载对位于该设备节点的模型切片的训练效率的干扰影响。启动训练后,实时获取由各设备节点上的随机森林模型所得到的干扰影响对应的干扰系数,通过模型搜索空间剪枝和遍历算法得到新的切分方案,并通过层迁移实现高效训练。
-