-
公开(公告)号:CN110533183A
公开(公告)日:2019-12-03
申请号:CN201910815750.7
申请日:2019-08-30
Applicant: 东南大学
Abstract: 本发明提供一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法,主要包含三个部分,分别是深度学习模型刻画、模型划分与任务放置、流水线分布式训练。本发明首先针对深度学习应用在GPU训练过程中的资源需求,刻画出其训练执行过程中计算时间、中间结果通信数量、参数同步量等相应指标,并将其作为模型划分与任务放置的输入。然后根据模型刻画得出指标以及GPU集群的异构网络连接拓扑,设计基于min-max的动态规划算法执行模型划分与任务放置,目的是最小化划分之后各阶段任务执行时间的最大值,以确保负载均衡。最后根据划分放置结果,在模型并行的基础上使用流水线分时注入数据进行分布式训练,实现训练速度与精度的有效保障。
-
公开(公告)号:CN110533183B
公开(公告)日:2021-08-20
申请号:CN201910815750.7
申请日:2019-08-30
Applicant: 东南大学
Abstract: 本发明提供一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法,主要包含三个部分,分别是深度学习模型刻画、模型划分与任务放置、流水线分布式训练。本发明首先针对深度学习应用在GPU训练过程中的资源需求,刻画出其训练执行过程中计算时间、中间结果通信数量、参数同步量等相应指标,并将其作为模型划分与任务放置的输入。然后根据模型刻画得出指标以及GPU集群的异构网络连接拓扑,设计基于min‑max的动态规划算法执行模型划分与任务放置,目的是最小化划分之后各阶段任务执行时间的最大值,以确保负载均衡。最后根据划分放置结果,在模型并行的基础上使用流水线分时注入数据进行分布式训练,实现训练速度与精度的有效保障。
-