推理系统的负载感知调度方法和推理系统

    公开(公告)号:CN119149252A

    公开(公告)日:2024-12-17

    申请号:CN202411646359.6

    申请日:2024-11-15

    Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,所述方法应用于推理系统中的全局调度器;所述推理系统还包括推理引擎;所述推理引擎包括部署在计算集群中的各个计算节点上的至少一个计算实例;所述计算实例的计算资源包括所在的计算节点上搭载的GPU;所述全局调度器维护了动态更新的各个计算实例的GPU负载信息;所述方法包括:获取待执行的目标推理请求;基于所维护的各个计算实例的GPU负载信息,确定GPU负载满足预设条件的目标计算实例;将所述目标推理请求发送至所述目标计算实例,以由所述目标计算实例执行所述目标推理请求。

    一种GPU算力资源的调度方法、装置

    公开(公告)号:CN118885273A

    公开(公告)日:2024-11-01

    申请号:CN202411047342.9

    申请日:2024-07-31

    Abstract: 一种GPU算力资源的调度方法,包括:响应于在计算集群中创建的目标计算任务,确定所述目标计算任务的任务类型;如果所述目标计算任务为所述第一类计算任务,将所述目标计算任务调度至所述计算集群中的剩余算力资源满足所述目标计算任务的算力需求的第一GPU硬件进行运行;响应于搭载所述第一GPU硬件的第一计算节点上报的所述第一类计算任务将独占所述第一GPU硬件的算力资源的第一指示,将已调度至所述第一GPU硬件进行运行的所述第二类计算任务,重新调度至所述计算集群中的剩余算力资源满足所述第二类计算任务的算力需求的第二GPU硬件进行运行;所述第一类计算任务的服务等级高于所述第二类计算任务。

    一种多业务服务混部方法和系统
    13.
    发明公开

    公开(公告)号:CN115509762A

    公开(公告)日:2022-12-23

    申请号:CN202211325213.2

    申请日:2022-10-27

    Inventor: 戴豪 杨统凯 吴伟

    Abstract: 本说明书实施例公开了一种多业务服务混部方法和系统,所述方法包括:对一个业务服务:确定该业务服务对应的目标资源等级;获取一个或多个处理设备中每个该处理设备的目标可调度资源,该目标可调度资源为该目标资源等级对应的可调度资源;基于该目标可调度资源是否满足该业务服务对应的部署条件,确定该业务服务在一个或多个该处理设备上的部署方法。

Patent Agency Ranking