基于智算集群的资源分配方法、装置、设备及存储介质

    公开(公告)号:CN119537027B

    公开(公告)日:2025-04-08

    申请号:CN202411926301.7

    申请日:2024-12-25

    Abstract: 本申请实施例提供了一种基于智算集群的资源分配方法、装置、设备及存储介质。方法包括:确定智算服务节点集群处理每个任务队列关联的历史任务的平均处理时长及任务分配率;每个任务队列对应一个目标约束函数,每个目标约束函数用于在满足当前任务队列对应的任务延迟处理比例阈值下,限定平均处理时长变量、任务分配率变量以及服务节点总量变量,与当前任务队列的服务节点分配权重变量之间的函数关系;对每个任务队列的目标约束函数进行计算得到对应的目标服务节点分配权重,分配对应的服务器节点子集;按照待处理任务的最大任务延迟阈值,确定对应分配的任务队列并处理对应任务队列中的待处理任务。以此能够降低系统延时,充分利用系统资源。

    一种智能计算系统架构
    2.
    发明授权

    公开(公告)号:CN119204130B

    公开(公告)日:2025-02-18

    申请号:CN202411494384.7

    申请日:2024-10-24

    Abstract: 本申请实施例公开一种智能计算系统架构,其中,计算板中包括多个第一网络芯片、多个神经网络处理器和多个中央处理器,多个神经网络处理器和多个中央处理器通过多个第一网络芯片通信连接构成第一计算网络层;计算框包含多个计算板和多个交换板,多个计算板与多个交换板通信连接构成第二计算网络层;计算柜至少包括两个计算框;网络柜与计算柜通信连接、网络柜和存储柜通信连接构成第三计算网络层,网络柜中包括基于第三计算网络层构建的第四计算网络层,第一计算网络层、第二计算网络层、第三计算网络层和第四计算网络层构成计算网络,计算网络用于人工智能模型训练过程中的数据传输。该智能计算系统架构能够提高对人工智能模型的训练效率。

    数据传输方法、装置、存储介质及计算机设备

    公开(公告)号:CN119011512B

    公开(公告)日:2025-01-07

    申请号:CN202411473266.8

    申请日:2024-10-22

    Abstract: 本申请实施例提供一种数据传输方法、装置、存储介质及计算机设备,通过获取未配置于同一计算板的第一处理器向第二处理器传输处理数据的传输指令;从与第一处理器建立有第一通信链路的计算板组网芯片中,确定第一目标计算板组网芯片;从与第一目标计算板组网芯片建立有第二通信链路的交换板组网芯片中,确定目标交换板组网芯片;确定与目标交换板组网芯片建立有第二通信链路,且与第二处理器建立有第一通信链路的第二目标计算板组网芯片;基于第一目标计算板组网芯片、任一目标交换板组网芯片以及第二目标计算板组网芯片建立数据传输路径,并通过数据传输路径对处理数据进行传输,通过不同的组网芯片建立出灵活的数据传输路径,提高数据传输效率。

    一种NPU集群网络结构和网络互连方法

    公开(公告)号:CN115809685B

    公开(公告)日:2023-07-25

    申请号:CN202310088059.X

    申请日:2023-02-09

    Abstract: 本发明涉及通信技术领域,具体是涉及一种NPU集群网络结构和网络互连方法。本发明将用于神经网络模型训练的节点划分为两组,分别是第一组处理器和第二组处理器,而且将网络平面也划分为两个平面,一个网络平面只负责一组处理器在训练神经网络模型过程中产生数据的传输,从而提升了由各个NPU处理器构成的NPU集群传输数据的效率,一旦传输数据的效率提升,那么数据传输的效率提升,则数据传输的效率就不会制约NPU集群的算力,从而提升了NPU集群的算力。

    基于CPU-NPU协同的高扩展节点系统及训练方法

    公开(公告)号:CN116074179B

    公开(公告)日:2023-07-14

    申请号:CN202310203989.5

    申请日:2023-03-06

    Abstract: 本发明公开了一种基于CPU‑NPU协同的高扩展节点系统及训练方法,所述系统包括:通用算力模块、AI算力模块、层次访存模块、数据缓存模块和网络接口模块;通用算力模块和AI算力模块进行分组互连,用于AI节点内片间互连的扩展;层次访存模块用于在通用算力模块与AI算力模块处理数据时提供通用计算的大内存和AI计算的高带宽;数据缓存模块用于处理通用算力模块在计算时的数据IO吞吐;网络接口模块用于将通用算力模块和AI算力模块在计算时进行分离通信。本发明从AI节点的互连、访存、存储、网络接口出发提出高扩展节点架构,实现AI算力‑层次访存‑片间互连均衡设计,以满足AI大模型训练需求。

    针对AI计算集群的运行频率控制方法、系统及相关设备

    公开(公告)号:CN116069152A

    公开(公告)日:2023-05-05

    申请号:CN202310203474.5

    申请日:2023-03-06

    Abstract: 本发明公开了一种针对AI计算集群的运行频率控制方法、系统及相关设备,方法包括:采集获取AI计算集群中各AI处理器对应的处理器状态数据集合;根据各AI处理器对应的处理器状态数据集合分别构建各AI处理器对应的频率关系模型并据此分别获取各AI处理器对应的最优运行频率,其中,一个AI处理器对应的最优运行频率是该AI处理器对应的所有候选运行频率中能效比最高的一个候选运行频率,一个AI处理器对应的候选运行频率包括根据该AI处理器对应的频率关系模型获取的满足预设性能约束条件的运行频率,据此分别对AI计算集群中的各AI处理器进行运行频率控制。本发明有利于降低AI计算集群的功耗和提高AI计算集群的能效比。

    神经网络处理器的能效比调优方法以及相关设备

    公开(公告)号:CN119938318A

    公开(公告)日:2025-05-06

    申请号:CN202411946612.X

    申请日:2024-12-25

    Abstract: 本申请实施例提供了一种神经网络处理器的能效比调优方法以及相关设备,属于计算机处理技术领域,该方法包括:获取神经网络处理器的矩阵参数集合,并基于矩阵参数集合确定神经网络处理器的工作能效比函数;基于工作能效比函数和矩阵参数集合构建贝叶斯分布模型,其中,贝叶斯分布模型包括用于评估矩阵参数集合质量的采集函数;利用采集函数对矩阵参数集合进行贝叶斯优化处理,得到目标矩阵参数集合;基于目标矩阵参数集合控制神经网络处理器进入运行状态。本申请能够提高NPU的能效比、减少能源消耗。

    基于智算集群的资源调度方法、装置、设备及存储介质

    公开(公告)号:CN119376902B

    公开(公告)日:2025-04-08

    申请号:CN202411970335.6

    申请日:2024-12-30

    Abstract: 本申请实施例提供了一种基于智算集群的资源调度方法、装置、设备及存储介质。方法包括:对多个智算集群进行基准测试,得到每个第一集群相对于基准集群的能耗比例因子和时长比例因子;对基准集群执行每个待处理任务的能耗和时长进行预测,得到基准能耗和基准时长;对每个第一集群进行能耗和时长的转换,得到对应的第一能耗和第一时长;将基准集群对应的基准能耗和基准时长,以及每个第一集群对应的第一能耗和第一时长输入至预设的目标模型中,得到待求解模型;基于待求解模型进行求解,确定多个待处理任务与多个智算集群之间的分配关系并将多个待处理任务分配到多个智算集群。以此,能够使得算力资源得到合理利用,有利于环境的可持续发展。

    基于智算集群的资源调度方法、装置、设备及存储介质

    公开(公告)号:CN119376902A

    公开(公告)日:2025-01-28

    申请号:CN202411970335.6

    申请日:2024-12-30

    Abstract: 本申请实施例提供了一种基于智算集群的资源调度方法、装置、设备及存储介质。方法包括:对多个智算集群进行基准测试,得到每个第一集群相对于基准集群的能耗比例因子和时长比例因子;对基准集群执行每个待处理任务的能耗和时长进行预测,得到基准能耗和基准时长;对每个第一集群进行能耗和时长的转换,得到对应的第一能耗和第一时长;将基准集群对应的基准能耗和基准时长,以及每个第一集群对应的第一能耗和第一时长输入至预设的目标模型中,得到待求解模型;基于待求解模型进行求解,确定多个待处理任务与多个智算集群之间的分配关系并将多个待处理任务分配到多个智算集群。以此,能够使得算力资源得到合理利用,有利于环境的可持续发展。

    基于智算集群的资源分配方法、装置、设备及存储介质

    公开(公告)号:CN119537027A

    公开(公告)日:2025-02-28

    申请号:CN202411926301.7

    申请日:2024-12-25

    Abstract: 本申请实施例提供了一种基于智算集群的资源分配方法、装置、设备及存储介质。方法包括:确定智算服务节点集群处理每个任务队列关联的历史任务的平均处理时长及任务分配率;每个任务队列对应一个目标约束函数,每个目标约束函数用于在满足当前任务队列对应的任务延迟处理比例阈值下,限定平均处理时长变量、任务分配率变量以及服务节点总量变量,与当前任务队列的服务节点分配权重变量之间的函数关系;对每个任务队列的目标约束函数进行计算得到对应的目标服务节点分配权重,分配对应的服务器节点子集;按照待处理任务的最大任务延迟阈值,确定对应分配的任务队列并处理对应任务队列中的待处理任务。以此能够降低系统延时,充分利用系统资源。

Patent Agency Ranking