推理系统的负载感知调度方法和推理系统

    公开(公告)号:CN119149252A

    公开(公告)日:2024-12-17

    申请号:CN202411646359.6

    申请日:2024-11-15

    Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,所述方法应用于推理系统中的全局调度器;所述推理系统还包括推理引擎;所述推理引擎包括部署在计算集群中的各个计算节点上的至少一个计算实例;所述计算实例的计算资源包括所在的计算节点上搭载的GPU;所述全局调度器维护了动态更新的各个计算实例的GPU负载信息;所述方法包括:获取待执行的目标推理请求;基于所维护的各个计算实例的GPU负载信息,确定GPU负载满足预设条件的目标计算实例;将所述目标推理请求发送至所述目标计算实例,以由所述目标计算实例执行所述目标推理请求。

    资源使用方法和装置
    2.
    发明授权

    公开(公告)号:CN115361349B

    公开(公告)日:2023-08-15

    申请号:CN202210883633.6

    申请日:2022-07-26

    Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。

    推理系统的内存管理方法和装置
    3.
    发明公开

    公开(公告)号:CN119248522A

    公开(公告)日:2025-01-03

    申请号:CN202411783366.0

    申请日:2024-12-05

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    资源使用方法和装置
    5.
    发明公开

    公开(公告)号:CN115361349A

    公开(公告)日:2022-11-18

    申请号:CN202210883633.6

    申请日:2022-07-26

    Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。

Patent Agency Ranking