行星规模计算机的透明抢占和迁移

    公开(公告)号:CN117120978A

    公开(公告)日:2023-11-24

    申请号:CN202280021860.6

    申请日:2022-03-03

    Abstract: 本文的公开内容描述了用于深度学习(DL)作业的平台级检查点化。检查点化是通过捕获以下两种状态数据来执行的:(i)GPU状态(设备状态)和(ii)CPU状态(主机状态)。GPU状态包括位于GPU和GPU上下文(例如,GPU中的默认流、由诸如DNN、Blas等的库创建的各种句柄)中的GPU数据(例如,模型参数、优化器状态等)。由于检查点化是以域感知方式完成的,因此仅复制GPU存储器的部分。“活动”存储器包含如模型参数的有用数据。为了能够捕获有用数据,控制存储器管理以识别存储器的哪些部分是活动的。此外,为了将目的地GPU恢复到相同的上下文/状态,一种机制被用于捕获原始GPU上的这种状态改变事件并在目的地GPU上重放。

    用于行星级计算系统的调度器
    4.
    发明公开

    公开(公告)号:CN117099083A

    公开(公告)日:2023-11-21

    申请号:CN202280026592.7

    申请日:2022-03-08

    Abstract: 本文中的公开内容描述了在云基础设施平台中调度人工智能(AI)工作负载的执行。全局调度器接收与资源票据值关联的AI工作负载。调度器基于平衡资源票据值将AI工作负载分配到节点。节点的本地调度器基于AI工作负载的资源票据值在资源上调度AI工作负载。基于调度AI工作负载,本地调度器的协调器服务在节点的基础设施资源上执行分配的AI工作负载。本公开还描述了基于优先级等级来调度AI工作负载。调度器接收AI工作负载,并且每个AI工作负载与指示在被执行时的抢占优先级的优先级等级相关联。AI工作负载基于优先级等级调度以在分配的节点集合上执行,然后基于调度执行。

    行星规模的完全管理式人工智能基础设施服务

    公开(公告)号:CN117015763A

    公开(公告)日:2023-11-07

    申请号:CN202280022711.1

    申请日:2022-03-08

    Abstract: 本文中的公开内容描述了在云基础设施平台中管理人工智能(AI)工作负载。分布式基础设施资源集合经由本地支持接口集成到云基础设施平台中。从多个租户接收AI工作负载,其中AI工作负载包括训练工作负载和推理工作负载,并且分布式基础设施资源集合的资源子集被指派给所接收到的AI工作负载。所接收到的AI工作负载被调度用于在所指派的资源子集上执行并且基于对AI工作负载的调度,它们在所指派的资源子集上被执行。所描述的云基础设施平台为许多不同的租户提供了高效安全的AI工作负载执行,并且使得能够灵活使用广泛多种第三方基础设施资源和第一方基础设施资源。

Patent Agency Ranking