一种支持并行热切换的大模型训练方法及系统

    公开(公告)号:CN119558371A

    公开(公告)日:2025-03-04

    申请号:CN202411501855.2

    申请日:2024-10-25

    Applicant: 北京大学

    Abstract: 本发明公开一种支持并行热切换的大模型训练方法及系统,属于大模型训练技术领域。所述方法包括:生成一逻辑计算图,所述逻辑计算图用于表示多组不同的并行策略组合;编译所述逻辑计算图,生成多个可执行计算图;其中,每一个可执行计算图对应一组并行策略组合;在多个可执行计算图中选取用于初始化大模型状态的初始化图,并根据任两组并行策略组合之间热切换代价,编排可执行计算图之间的执行顺序;基于所述初始化图以及可执行计算图之间的执行顺序进行大模型的训练。本发明不仅可以保证每个分组内的序列计算量/工作负载大致接近,还可以使得并行策略能够在模型训练过程中动态地切换,并正常完成模型的梯度累积和更新。

Patent Agency Ranking