一种计算机集群的NPU容错调度系统

    公开(公告)号:CN117632444B

    公开(公告)日:2024-06-11

    申请号:CN202410110185.5

    申请日:2024-01-26

    Abstract: 本发明公开了一种计算机集群的NPU容错调度系统,基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑,实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态,实现了考虑硬件亲和性和实时负载的任务调度。此外,系统针对推理任务和训练任务提出了不同的容错机制,能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式,本发明的系统在资源利用效率、实时性、自适应性等方面有了显著提升,更适应大规模、复杂的计算环境。

    一种模型训练的方法、装置、存储介质及电子设备

    公开(公告)号:CN117787435A

    公开(公告)日:2024-03-29

    申请号:CN202311665774.1

    申请日:2023-12-06

    Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,其中,地面基站确定本地部署的目标模型的模型参数,并将该模型参数以及目标模型的当前训练的轮次信息发送至各卫星,以使得各卫星根据所述模型参数,对部署在卫星上的本地模型进行参数更新,并通过本地保存的样本遥感数据对该卫星上的本地模型进行训练,得到各卫星对应训练轮次的训练后的梯度信息,以将该梯度信息以及对应的轮次信息返回给地面基站。地面基站根据当前轮次各卫星返回的轮次信息,确定当前轮次各卫星返回的梯度信息对应的权重,并根据各卫星返回的梯度信息所对应的权重,对目标模型执行针对当前训练轮次的训练任务。

    一种多目标跟踪的方法、装置、存储介质及电子设备

    公开(公告)号:CN117670937A

    公开(公告)日:2024-03-08

    申请号:CN202311855599.2

    申请日:2023-12-28

    Abstract: 本说明书公开了一种多目标跟踪的方法、装置、存储介质及电子设备,在本说明书提供的多目标跟踪的方法中,根据传感器采集的环境数据,确定当前时刻各跟踪目标的侯选位置,针对每个跟踪目标,根据公共位置对应的多个跟踪目标的轨迹预测位置到公共位置的从属距离,根据确定的各从属距离,确定公共位置与多个跟踪目标的关联度权重,通过公共位置与该跟踪目标的关联度权重,重新确定关联概率。因为在确定跟踪目标的估计位置时,根据公共位置与公共位置对应的多个跟踪目标的轨迹预测位置的从属距离,对关联概率加权,使得在跟踪目标比较多的密集场景中,可以根据从属距离,对多个距离相近的跟踪目标的侯选位置进行区分,确定更加准确的跟踪目标轨迹。

    一种资源调度方法、装置、存储介质及电子设备

    公开(公告)号:CN117076135B

    公开(公告)日:2024-02-02

    申请号:CN202311328292.7

    申请日:2023-10-13

    Abstract: 本说明书公开了一种资源调度方法、装置、存储介质及电子设备。在本说明书提供的资源调度方法中,对各卫星的资源进行划分,得到所述各卫星的自用资源区与调度资源区;针对每个卫星,根据该卫星的位置,确定该卫星的微星云,所述微星云中包含能够与该卫星进行通信的其它卫星;将所述微星云中包含的其它卫星确定为该卫星的调度卫星;当该卫星接收到计算任务,且该卫星的自用资源区中空闲的资源不足以处理所述计算任务时,根据所述计算任务与各调度卫星的调度资源区的资源状况,将所述计算任务分配给所述各调度卫星中的至少一个调度卫星。

    一种基于序列生成的异构芯片任务调度方法以及装置

    公开(公告)号:CN116932175B

    公开(公告)日:2024-01-09

    申请号:CN202311208268.X

    申请日:2023-09-19

    Abstract: 本说明书公开了一种基于序列生成的异构芯片任务调度方法以及装置,针对每个待调度任务,确定该待调度任务在各芯片上分别对应的执行时间,再确定各芯片分别对应的空闲时刻,根据各芯片分别对应的空闲时刻、各待调度任务在各芯片上分别对应的执行时间,生成调度序列,以根据调度序列调度各芯片执行各待调度任务。在包含异构芯片的计算集群中存在处于空闲状态的芯片的情况下,尽可能为该处于空闲状态的芯片分配与其匹配的任务,保证了任务执行效率。

    一种任务执行方法、装置、存储介质及电子设备

    公开(公告)号:CN116225669A

    公开(公告)日:2023-06-06

    申请号:CN202310509060.5

    申请日:2023-05-08

    Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,可以预先确定出所有可以并行执行的算子组合,进而可以在响应于用户发起的任务请求进行任务执行时,确定需要执行该任务对应的各可执行算子与正在执行其他任务的芯片正在执行的其他任务的算子是否有匹配的可以并行执行的算子组合,若有,则可以通过正在执行其他任务的芯片并行执行该任务请求对应的任务,从而可以提升芯片的计算资源的利用率。

Patent Agency Ranking