-
公开(公告)号:CN119806973A
公开(公告)日:2025-04-11
申请号:CN202411743095.6
申请日:2024-11-29
Applicant: 清华大学
IPC: G06F11/34 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及大模型计算集群技术领域,尤其是指一种基于并行策略调度的大模型计算集群服务可靠性评估与优化方法、装置、设备及计算机存储介质。本发明所述的大模型计算集群服务可靠性评估与优化方法,以流水线并行为核心,综合考虑了训练过程中不同GPU之间性能差异、数据传递时间,以及不确定性因素对训练时间的影响,结合现有的交错式和非交错式流水线并行策略,建立了充分考虑训练时间的不一致性和结合各种流水线并行策略的模型,并针对大模型训练的具体特点,给出了训练过程的具体约束,并通过整数规划对模型进行求解,以实现大模型计算集群的高效和可靠训练。