一种跨集群数据处理方法及装置
    11.
    发明公开

    公开(公告)号:CN120011112A

    公开(公告)日:2025-05-16

    申请号:CN202510488492.1

    申请日:2025-04-18

    Abstract: 本说明书公开了一种跨集群数据处理方法及装置。所述方法包括:将各计算节点所存储的第一结果数据拆分为多个数据切片;按照每个数据切片在第一结果数据中的先后顺序,依次将各数据切片从各计算节点发送给第一计算集群的主机内存,以使主机内存对已接收的数据切片和第二计算集群的主机内存中存储的数据切片进行规约计算,得到已接收的数据切片对应的第二结果数据;控制主机内存在接收后续的数据切片的同时,将第二结果数据从第一计算集群的主机内存发送给每个已接收的数据切片对应的计算节点;在各计算节点接收到全部数据切片对应的第二结果数据后,得到目标计算结果。本方案提高了跨集群通信效率,进一步提高了跨集群数据处理效率。

    一种并行训练中的计算方法、装置、存储介质、设备

    公开(公告)号:CN118585342A

    公开(公告)日:2024-09-03

    申请号:CN202411058896.9

    申请日:2024-08-02

    Abstract: 本说明书公开了一种并行训练中的计算方法、装置、存储介质、设备,应用于模型并行训练,模型包括若干模型层,模型层被部署于若干计算节点中,每个计算节点中部署的模型层包括常规层和弹性层,弹性层根据该计算节点的后置节点的常规层确定,针对任一计算节点,根据当前批次的训练样本以及该计算节点上部署的常规层,得到该计算节点的计算结果,若该计算节点的后置节点已完成对前一批次的训练样本的计算,将计算结果作为输出结果,否则,根据计算结果以及该计算节点的弹性层,得到该计算节点的输出结果,将输出结果传输给所述后置节点,可动态监控和调整计算节点的负载,减少整体计算过程的计算等待时间。

    一种用于大模型参数分区的并行训练加速方法和系统

    公开(公告)号:CN117744838A

    公开(公告)日:2024-03-22

    申请号:CN202410106133.0

    申请日:2024-01-25

    Abstract: 本发明公开了一种用于大模型参数分区的并行训练加速方法和系统,属于大模型预训练领域,包括:采集大模型训练时数据并行模式下的预配置信息和运行时信息;根据采集到的信息构建模型参数分区的性能决策模型,基于网格搜索算法和改进的通信算法得到包含冗余集的模型参数分区优化方案;结合数据并行模式和模型参数分区优化方案对大模型进行训练,得到包含训练时间开销和GPU显存利用率的当前指标;以当前指标最优为目标对前述步骤进行多次迭代,直到得到最优的模型参数分区方案,并运用于剩下的迭代训练。本发明提出的包含冗余集的模型参数分区方案,提供了一种灵活的大模型训练方案,能够明显节省通信开销,减少整体训练时间,从而提升训练效率。

    一种超算中心间的大文件分片传输方法和传输架构

    公开(公告)号:CN115242782B

    公开(公告)日:2023-01-03

    申请号:CN202211148476.0

    申请日:2022-09-21

    Abstract: 本发明涉及超级计算机的资源管理技术领域,公开一种超算中心间的大文件分片传输方法和传输架构,该方法包括:步骤一,收集超算中心间传包的文件数据,对其中作为发送方的超算中心进行初始化工作;步骤二,完成初始化工作后,发送方的超算中心获取初始状态,利用强化学习算法,动态调整文件数据的分片大小,后根据分片大小进行文件数据分片后传输给接收方的超算中心;步骤三,接收方的超算中心根据其接收状态,发送传输反馈给发送方的超算中心;步骤四,更新并判断剩余的文件数据的大小,以此判断文件数据是否传输完毕,若未传输完毕,则重复步骤二至步骤四,直至整个文件数据传输完成。本发明可以有效降低系统资源的浪费,提升整体的系统效率。

    一种适用于深度学习训练的IO加速系统及数据存储方法

    公开(公告)号:CN115470931A

    公开(公告)日:2022-12-13

    申请号:CN202211079412.X

    申请日:2022-09-05

    Abstract: 本发明公开一种适用于深度学习训练的IO加速系统及数据存储方法,该系统和方法在训练任务开始前,制备与轮次训练对应的副本;副本以对应轮次训练的随机序列为顺序、依据存储设备的特性存在存储设备中,使得按照该随机序列读取所述副本数据时,符合存储设备的顺序访问特性;每个轮次训练均从对应的副本中读取数据。本发明的方法将训练过程中对存储设备的随机IO转换为顺序IO,能够充分利用硬盘等顺序存储设备的性能。

    一种异构超算环境下多策略的作业调度方法及系统

    公开(公告)号:CN114610474B

    公开(公告)日:2022-09-02

    申请号:CN202210511947.3

    申请日:2022-05-12

    Abstract: 本发明公开一种异构超算环境下多策略的作业调度方法及系统,该方法包括:步骤一,客户端响应于用户的作业请求,将用户作业请求发送给作业调度中心;步骤二,作业调度中心接收到客户端的请求后,解析请求并将所请求的作业添加到作业队列中,同时启用信息采集模块,收集各超算中心的超算资源状态信息;步骤三,作业调度中心根据各超算中心超算资源的状态信息筛选出可用的超算资源,然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器,强化学习调度器生成调度结果,即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源,将作业调度到该超算资源上执行。本发明启用多线程同时调度作业,加速并提升了调度的效率。

    一种异构超算环境下多策略的作业调度方法及系统

    公开(公告)号:CN114610474A

    公开(公告)日:2022-06-10

    申请号:CN202210511947.3

    申请日:2022-05-12

    Abstract: 本发明公开一种异构超算环境下多策略的作业调度方法及系统,该方法包括:步骤一,客户端响应于用户的作业请求,将用户作业请求发送给作业调度中心;步骤二,作业调度中心接收到客户端的请求后,解析请求并将所请求的作业添加到作业队列中,同时启用信息采集模块,收集各超算中心的超算资源状态信息;步骤三,作业调度中心根据各超算中心超算资源的状态信息筛选出可用的超算资源,然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器,强化学习调度器生成调度结果,即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源,将作业调度到该超算资源上执行。本发明启用多线程同时调度作业,加速并提升了调度的效率。

    一种加速深度学习训练任务数据载入的方法

    公开(公告)号:CN113656333B

    公开(公告)日:2022-03-18

    申请号:CN202111221953.7

    申请日:2021-10-20

    Abstract: 本发明公开了一种加速深度学习训练任务数据载入的方法,该方法使用双随机序列方式,在每个训练周期开始时提前计算下一个周期的随机序列,并申请一块独立的内存提前缓存下一个周期初始阶段所需数据。根据当前周期的随机序列依次为神经网络准备数据的同时,可参照下一个周期的随机序列及时将下一个周期初始阶段所需数据依次从内存拷贝到缓存,使得下一个周期初始阶段所需的数据可全部从缓存获得。本发明不需修改现有深度学习的架构,实现简单,引入的计算开销小,缓存数据能全部命中且可被使用多次,从而减少从后端存储系统读取数据,并且训练周期数越多,此方法的加速效果越明显。

    一种面向多并发深度学习训练任务的数据缓存方法和装置

    公开(公告)号:CN114968588B

    公开(公告)日:2025-02-28

    申请号:CN202210632036.6

    申请日:2022-06-07

    Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。

    一种基于插桩的自动化性能数据获取和分析方法及装置

    公开(公告)号:CN117349134A

    公开(公告)日:2024-01-05

    申请号:CN202311278119.0

    申请日:2023-09-28

    Abstract: 本发明公开了一种基于插桩的自动化性能数据获取和分析方法及装置,所述方法包括以下步骤:通过配置选项选择待插桩的源代码范围,定位待插桩的源代码范围中的原始函数定义处的函数名,进行更名操作;生成包括性能数据获取块一、更名后的函数调用块、性能数据获取块二的插桩器;为每个更名后的函数生成一个与原始函数同名、具有相同参数列表和返回类型的函数,并在函数中插入插桩器以存储原始函数的性能数据;获取原始函数的性能数据进行分析,并生成结果报告。上述方案在保证插桩结果正确性的前提下,简化了性能数据获取的插桩过程和工作量。

Patent Agency Ranking