一种计算机集群的NPU容错调度系统

    公开(公告)号:CN117632444B

    公开(公告)日:2024-06-11

    申请号:CN202410110185.5

    申请日:2024-01-26

    Abstract: 本发明公开了一种计算机集群的NPU容错调度系统,基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑,实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态,实现了考虑硬件亲和性和实时负载的任务调度。此外,系统针对推理任务和训练任务提出了不同的容错机制,能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式,本发明的系统在资源利用效率、实时性、自适应性等方面有了显著提升,更适应大规模、复杂的计算环境。

    一种模型训练的方法、装置、存储介质及电子设备

    公开(公告)号:CN117787435A

    公开(公告)日:2024-03-29

    申请号:CN202311665774.1

    申请日:2023-12-06

    Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,其中,地面基站确定本地部署的目标模型的模型参数,并将该模型参数以及目标模型的当前训练的轮次信息发送至各卫星,以使得各卫星根据所述模型参数,对部署在卫星上的本地模型进行参数更新,并通过本地保存的样本遥感数据对该卫星上的本地模型进行训练,得到各卫星对应训练轮次的训练后的梯度信息,以将该梯度信息以及对应的轮次信息返回给地面基站。地面基站根据当前轮次各卫星返回的轮次信息,确定当前轮次各卫星返回的梯度信息对应的权重,并根据各卫星返回的梯度信息所对应的权重,对目标模型执行针对当前训练轮次的训练任务。

    一种多目标跟踪的方法、装置、存储介质及电子设备

    公开(公告)号:CN117670937A

    公开(公告)日:2024-03-08

    申请号:CN202311855599.2

    申请日:2023-12-28

    Abstract: 本说明书公开了一种多目标跟踪的方法、装置、存储介质及电子设备,在本说明书提供的多目标跟踪的方法中,根据传感器采集的环境数据,确定当前时刻各跟踪目标的侯选位置,针对每个跟踪目标,根据公共位置对应的多个跟踪目标的轨迹预测位置到公共位置的从属距离,根据确定的各从属距离,确定公共位置与多个跟踪目标的关联度权重,通过公共位置与该跟踪目标的关联度权重,重新确定关联概率。因为在确定跟踪目标的估计位置时,根据公共位置与公共位置对应的多个跟踪目标的轨迹预测位置的从属距离,对关联概率加权,使得在跟踪目标比较多的密集场景中,可以根据从属距离,对多个距离相近的跟踪目标的侯选位置进行区分,确定更加准确的跟踪目标轨迹。

    一种资源调度方法、装置、存储介质及电子设备

    公开(公告)号:CN117076135B

    公开(公告)日:2024-02-02

    申请号:CN202311328292.7

    申请日:2023-10-13

    Abstract: 本说明书公开了一种资源调度方法、装置、存储介质及电子设备。在本说明书提供的资源调度方法中,对各卫星的资源进行划分,得到所述各卫星的自用资源区与调度资源区;针对每个卫星,根据该卫星的位置,确定该卫星的微星云,所述微星云中包含能够与该卫星进行通信的其它卫星;将所述微星云中包含的其它卫星确定为该卫星的调度卫星;当该卫星接收到计算任务,且该卫星的自用资源区中空闲的资源不足以处理所述计算任务时,根据所述计算任务与各调度卫星的调度资源区的资源状况,将所述计算任务分配给所述各调度卫星中的至少一个调度卫星。

    可重构电路、可重构芯粒间互联的装置及其方法

    公开(公告)号:CN117056279B

    公开(公告)日:2024-01-26

    申请号:CN202311320181.1

    申请日:2023-10-12

    Abstract: 本申请提供一种可重构电路、可重构芯粒间互联的装置及其方法。该可重构电路包括可重构互联模块及控制模块,可重构互联模块用于与一个微凸点组对应连接,微凸点组包括多个微凸点。可重构互联模块包括多个可重构的开关单元。每一个开关单元具有控制端、输入端及输出端,开关单元的控制端连接到控制模块,开关单元的输入端用于接收来自功能模块或测试模块的接口信号,开关单元的输出端用于连接微凸点组中的一个微凸点。控制模块用于接收外部的控制数据,并根据控制数据来控制可重构互联模块中多个开关单元的通断以选择合适的微凸点连通。在开关单元闭合时,与开关单元连接的对应微凸点连通,接口信号可通过开关单元的输入端传递到微凸点。

    一种基于序列生成的异构芯片任务调度方法以及装置

    公开(公告)号:CN116932175B

    公开(公告)日:2024-01-09

    申请号:CN202311208268.X

    申请日:2023-09-19

    Abstract: 本说明书公开了一种基于序列生成的异构芯片任务调度方法以及装置,针对每个待调度任务,确定该待调度任务在各芯片上分别对应的执行时间,再确定各芯片分别对应的空闲时刻,根据各芯片分别对应的空闲时刻、各待调度任务在各芯片上分别对应的执行时间,生成调度序列,以根据调度序列调度各芯片执行各待调度任务。在包含异构芯片的计算集群中存在处于空闲状态的芯片的情况下,尽可能为该处于空闲状态的芯片分配与其匹配的任务,保证了任务执行效率。

    一种任务执行方法、装置、存储介质及电子设备

    公开(公告)号:CN116225669A

    公开(公告)日:2023-06-06

    申请号:CN202310509060.5

    申请日:2023-05-08

    Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,可以预先确定出所有可以并行执行的算子组合,进而可以在响应于用户发起的任务请求进行任务执行时,确定需要执行该任务对应的各可执行算子与正在执行其他任务的芯片正在执行的其他任务的算子是否有匹配的可以并行执行的算子组合,若有,则可以通过正在执行其他任务的芯片并行执行该任务请求对应的任务,从而可以提升芯片的计算资源的利用率。

    一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897B

    公开(公告)日:2023-03-24

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274A

    公开(公告)日:2023-01-31

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

    脉冲双星傅立叶域加速搜索GPU并行搜索方法和装置

    公开(公告)号:CN118377537A

    公开(公告)日:2024-07-23

    申请号:CN202410806587.9

    申请日:2024-06-21

    Abstract: 本发明公开了一种脉冲双星傅立叶域加速搜索GPU并行搜索方法和装置,方法包括以下步骤:获取脉冲双星观测数据前处理后的文件,从中读取包括最低傅立叶频率和最高傅立叶频率的参数并创建副谐波信息数组集合;在GPU中,以频率步长乘以批大小的傅立叶频率范围作为步长,从最低傅立叶频率到最高傅立叶频率对副谐波信息数组集合进行遍历搜索得到候选体集合,每次遍历搜索过程包括:计算初始副谐波数组和计算除初始副谐波数组外的副谐波数组集合,并行计算谐波求和与候选体筛选;将所有筛选符合要求的候选体集合进行保存。本发明支持利用多GPU并行加速,能够成倍地提升脉冲双星搜索进程,大大加速该学科的天体发现速度。

Patent Agency Ranking