一种深度学习模型的流水线并行训练方法及系统

    公开(公告)号:CN116185604A

    公开(公告)日:2023-05-30

    申请号:CN202211594422.7

    申请日:2022-12-13

    Abstract: 本发明提出了一种深度学习模型的流水线并行训练方法及系统,涉及机器学习技术领域,具体方案包括:获取要训练的模型,对模型中每个网络层所占用的内存量进行预估,得到内存预估序列;利用前缀和分区算法对内存预估序列进行分区,将分区均衡分配到流水线上的GPU中;将训练数据集分批连续传入流水线中,进行流水线并行训练;其中,并行训练过程中,采用同步加异步混合的权重缓冲方式,对网络层的权重进行更新;本发明采用一种权重缓冲策略,保证同一小批数据在执行前向传播和反向传播时使用的是同一个版本的参数,从而提高模型训练精度,节省计算资源内存。

Patent Agency Ranking