-
公开(公告)号:CN116185604A
公开(公告)日:2023-05-30
申请号:CN202211594422.7
申请日:2022-12-13
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明提出了一种深度学习模型的流水线并行训练方法及系统,涉及机器学习技术领域,具体方案包括:获取要训练的模型,对模型中每个网络层所占用的内存量进行预估,得到内存预估序列;利用前缀和分区算法对内存预估序列进行分区,将分区均衡分配到流水线上的GPU中;将训练数据集分批连续传入流水线中,进行流水线并行训练;其中,并行训练过程中,采用同步加异步混合的权重缓冲方式,对网络层的权重进行更新;本发明采用一种权重缓冲策略,保证同一小批数据在执行前向传播和反向传播时使用的是同一个版本的参数,从而提高模型训练精度,节省计算资源内存。
-
公开(公告)号:CN116681112A
公开(公告)日:2023-09-01
申请号:CN202310526213.7
申请日:2023-05-06
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06N3/0495 , G06N3/082 , G06N3/0985
Abstract: 本发明属于深度学习的数据分析工作流领域,提供了一种基于Ray的云边协同数据分析工作流优化方法及系统。该方法包括,获取数据集,基于Ray,采用数据集在终端设备上训练第一学生模型和第一教师模型,得到蒸馏训练方法;将数据集和蒸馏训练方法上传至云端,设置并行工作器的数量和超参数,采用数据集和蒸馏训练方法在云端上训练第二学生模型和第二教师模型,得到训练好的第二学生模型,并将训练好的第二学生模型部署到终端。本发明采用优化的模型压缩方法对云端训练好的大模型进行压缩操作获得小模型,将小模型一键部署到资源受限的终端设备上。
-
公开(公告)号:CN116452404A
公开(公告)日:2023-07-18
申请号:CN202310437009.8
申请日:2023-04-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
Abstract: 本发明提出了一种深度学习模型分布式训练的内存优化方法及系统,包括:将目标深度学习模型的多个网络层基于图形处理器数量划分为多个区;每个区的网络层在进行训练时,下一训练批次的反向传播基于上一训练批次的反向传播的参数,进行交叉训练;若同一训练批次前向传播和后向传播所运行时的张量大于所在图形处理器上权重缓冲区的内存,则将所述张量分配至中央处理器上执行后并返回至所在的图形处理器。通过建立下一训练批次的反向传播和上一训练批次的反向传播的依赖关系,保证了稳定的交叉训练;通过将图形处理器上权值交换到中央处理器上处理,从而减轻图形处理器上内存的压力。
-
-