-
公开(公告)号:CN118075135B
公开(公告)日:2024-06-25
申请号:CN202410467177.6
申请日:2024-04-18
Applicant: 清华大学
Abstract: 本发明涉及数字信息的传输技术领域,特别涉及一种光电混合数据中心网络的构建方法、装置及介质,其中,方法包括:基于树状拓扑、光路交换机和电分组交换机,生成大模型光电混合的网络拓扑;根据目标通信需求和目标场景获取目标拓扑分配方案,利用目标拓扑分配方案调配网络拓扑,得到调配后的网络拓扑;根据调配后的网络拓扑、人工智能任务与光电混合集群特征优化网络传输层得到优化结果,并根据优化结果构建光电混合智算网络。由此,解决了相关技术中采用光电混合组网的方式进行大模型训练,需要额外的控制措施进行调度,降低了通信效率,并且降低了调整网络拓扑的灵活性,无法满足用户的使用需求的问题。
-
公开(公告)号:CN116938727B
公开(公告)日:2024-08-27
申请号:CN202310682761.9
申请日:2023-06-09
Applicant: 中国移动通信集团有限公司研究院 , 清华大学
IPC: H04L41/12 , H04L41/0896 , H04L67/10 , H04L41/082
Abstract: 本发明提供一种分散规约处理方法、装置及可读存储介质,该方法包括:获取树状网络拓扑中的第一数据放置信息和第二数据放置信息,第一数据放置信息包括在目标节点上执行分散规约操作前目标服务器中的第一数据信息,第二数据放置信息包括在目标节点上执行分散规约操作后目标服务器中的第二数据信息;在确定对目标子节点下的N1个目标服务器中的第一数据信息更新的情况下,将N1个目标服务器中的第一数据信息放置到目标子节点下的N2个目标服务器中;N2与目标子节点的收敛比相关;根据N2个目标服务器中更新的第一数据信息,得到更新后的第一数据放置信息;根据更新后的第一数据放置信息、第二数据放置信息和分散规约算法进行分散规约处理。
-
公开(公告)号:CN118075291B
公开(公告)日:2024-07-16
申请号:CN202410466641.X
申请日:2024-04-18
Applicant: 清华大学
IPC: H04L67/1095 , H04L67/1034 , H04L41/0663 , G06F11/20 , G06N20/00
Abstract: 本发明涉及数据处理技术领域,特别涉及一种数据中心分布式机器学习参数的同步加速方法及装置,其中,方法包括:获取数据中心中网络拓扑的基本结构和目标层数;根据基本结构进行层层迭代构造得到目标层数的网络拓扑,其中,基本结构包括一台交换机和多台计算机组成,基本结构为网络拓扑的第一层结构,网络拓扑的每一层结构包括多台交换机和多个上一层结构,每一层结构的每台交换机分别与每个上一层结构中的一台计算机相连,且每一层结构的每台交换机连接的计算机不同;从网络拓扑的第一层结构开始逐层同步机器学习参数,其中,网络拓扑相同层结构同时进行机器学习参数同步。由此,解决了相关技术中机器学习参数的同步时间长,同步效率较差等问题。
-
公开(公告)号:CN118075135A
公开(公告)日:2024-05-24
申请号:CN202410467177.6
申请日:2024-04-18
Applicant: 清华大学
Abstract: 本发明涉及数字信息的传输技术领域,特别涉及一种光电混合数据中心网络的构建方法、装置及介质,其中,方法包括:基于树状拓扑、光路交换机和电分组交换机,生成大模型光电混合的网络拓扑;根据目标通信需求和目标场景获取目标拓扑分配方案,利用目标拓扑分配方案调配网络拓扑,得到调配后的网络拓扑;根据调配后的网络拓扑、人工智能任务与光电混合集群特征优化网络传输层得到优化结果,并根据优化结果构建光电混合智算网络。由此,解决了相关技术中采用光电混合组网的方式进行大模型训练,需要额外的控制措施进行调度,降低了通信效率,并且降低了调整网络拓扑的灵活性,无法满足用户的使用需求的问题。
-
公开(公告)号:CN116938727A
公开(公告)日:2023-10-24
申请号:CN202310682761.9
申请日:2023-06-09
Applicant: 中国移动通信集团有限公司研究院 , 清华大学
IPC: H04L41/12 , H04L41/0896 , H04L67/10 , H04L41/082
Abstract: 本发明提供一种分散规约处理方法、装置及可读存储介质,该方法包括:获取树状网络拓扑中的第一数据放置信息和第二数据放置信息,第一数据放置信息包括在目标节点上执行分散规约操作前目标服务器中的第一数据信息,第二数据放置信息包括在目标节点上执行分散规约操作后目标服务器中的第二数据信息;在确定对目标子节点下的N1个目标服务器中的第一数据信息更新的情况下,将N1个目标服务器中的第一数据信息放置到目标子节点下的N2个目标服务器中;N2与目标子节点的收敛比相关;根据N2个目标服务器中更新的第一数据信息,得到更新后的第一数据放置信息;根据更新后的第一数据放置信息、第二数据放置信息和分散规约算法进行分散规约处理。
-
公开(公告)号:CN118069375B
公开(公告)日:2024-06-18
申请号:CN202410466707.5
申请日:2024-04-18
Applicant: 清华大学 , 中移(苏州)软件技术有限公司
Abstract: 本发明涉及电数字数据处理技术领域,特别涉及一种数据中心大模型训练的流水线并行优化方法及装置,其中,方法包括:获取待训练大模型的初始流水线中每个工作设备的任务列表和任务队列,根据预设经验规则得到当前时刻下至少一个工作设备的目标任务,并根据至少一个工作设备的目标任务更新对应的任务列表,由至少一个工作设备执行更新后的任务列表,直至清空任务队列,得到完结任务列表优化初始流水线,以利用优化后的初始流水线执行待训练大模型在预设数据中心的流水线并行。本发明实施例可以基于预先设定的经验规则选取工作设备的当前任务,以实时优化待训练大模型的流水线,从而进一步减少模型训练及推理过程中的气泡时间,更加高效经济。
-
公开(公告)号:CN118075291A
公开(公告)日:2024-05-24
申请号:CN202410466641.X
申请日:2024-04-18
Applicant: 清华大学
IPC: H04L67/1095 , H04L67/1034 , H04L41/0663 , G06F11/20 , G06N20/00
Abstract: 本发明涉及数据处理技术领域,特别涉及一种数据中心分布式机器学习参数的同步加速方法及装置,其中,方法包括:获取数据中心中网络拓扑的基本结构和目标层数;根据基本结构进行层层迭代构造得到目标层数的网络拓扑,其中,基本结构包括一台交换机和多台计算机组成,基本结构为网络拓扑的第一层结构,网络拓扑的每一层结构包括多台交换机和多个上一层结构,每一层结构的每台交换机分别与每个上一层结构中的一台计算机相连,且每一层结构的每台交换机连接的计算机不同;从网络拓扑的第一层结构开始逐层同步机器学习参数,其中,网络拓扑相同层结构同时进行机器学习参数同步。由此,解决了相关技术中机器学习参数的同步时间长,同步效率较差等问题。
-
公开(公告)号:CN118069375A
公开(公告)日:2024-05-24
申请号:CN202410466707.5
申请日:2024-04-18
Applicant: 清华大学 , 中移(苏州)软件技术有限公司
Abstract: 本发明涉及电数字数据处理技术领域,特别涉及一种数据中心大模型训练的流水线并行优化方法及装置,其中,方法包括:获取待训练大模型的初始流水线中每个工作设备的任务列表和任务队列,根据预设经验规则得到当前时刻下至少一个工作设备的目标任务,并根据至少一个工作设备的目标任务更新对应的任务列表,由至少一个工作设备执行更新后的任务列表,直至清空任务队列,得到完结任务列表优化初始流水线,以利用优化后的初始流水线执行待训练大模型在预设数据中心的流水线并行。本发明实施例可以基于预先设定的经验规则选取工作设备的当前任务,以实时优化待训练大模型的流水线,从而进一步减少模型训练及推理过程中的气泡时间,更加高效经济。
-
公开(公告)号:CN116668459A
公开(公告)日:2023-08-29
申请号:CN202210146256.8
申请日:2022-02-17
Applicant: 清华大学 , 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
IPC: H04L67/1095 , H04L41/12 , H04L47/12 , H04L47/20
Abstract: 本发明提供了一种数据处理方法、装置及设备,其中,数据处理方法包括:根据目标树状拓扑,确定目标树高度,以及所述目标树高度下各层分别对应的目标宽度;根据所述目标树高度和目标宽度,以各个处理节点为根构造树;根据所述处理节点的总数量,对总数据块进行等量划分,得到至少两个子块;利用构造的各棵树分别对一个所述子块进行全规约处理。本方案能够支撑实现降低通信步数和依赖链长度,从而降低通信延迟;还能够通过调控宽度避免多打一所造成的通信阻塞,从而提高带宽利用率;很好的解决了现有技术中针对全规约的数据处理方案通信延迟大、存在多打一通信阻塞的问题。
-
-
-
-
-
-
-
-