推理系统的内存管理方法和装置

    公开(公告)号:CN119248525B

    公开(公告)日:2025-05-06

    申请号:CN202411784836.5

    申请日:2024-12-05

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    资源使用方法和装置
    2.
    发明授权

    公开(公告)号:CN115361349B

    公开(公告)日:2023-08-15

    申请号:CN202210883633.6

    申请日:2022-07-26

    Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。

    容器组调度方法及装置
    3.
    发明公开

    公开(公告)号:CN115543560A

    公开(公告)日:2022-12-30

    申请号:CN202211117315.5

    申请日:2022-09-14

    Abstract: 本说明书一个或多个实施例提供一种容器组调度方法及装置,该方法应用于运行在容器管理集群中的Master Node上的调度器;容器管理集群包括用于运行在容器管理集群中创建的Pod的多个Node;该方法包括:从Pod调度队列中获取待调度的多个Pod,并对多个Pod进行等价类划分,得到至少一个Pod集合;依次将至少一个Pod集合中的各个Pod集合确定为目标Pod集合;确定与目标Pod集合对应的目标可调度Node集合,并缓存目标Pod集合与目标可调度Node集合之间的对应关系;从目标可调度Node集合中确定出与目标Pod集合中的各个Pod对应的Node,并将目标Pod集合中的各个Pod绑定到与Pod对应的Node上;在完成将目标Pod集合中的各个Pod绑定到与Pod对应的Node上之后,删除缓存的对应关系。

    推理系统的内存管理方法和装置
    4.
    发明公开

    公开(公告)号:CN119248522A

    公开(公告)日:2025-01-03

    申请号:CN202411783366.0

    申请日:2024-12-05

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    资源使用方法和装置
    6.
    发明公开

    公开(公告)号:CN115361349A

    公开(公告)日:2022-11-18

    申请号:CN202210883633.6

    申请日:2022-07-26

    Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。

    推理系统的内存管理方法和装置

    公开(公告)号:CN119248525A

    公开(公告)日:2025-01-03

    申请号:CN202411784836.5

    申请日:2024-12-05

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。

    分布式任务调度方法、分布式任务调度系统及分布式任务处理系统

    公开(公告)号:CN118012590A

    公开(公告)日:2024-05-10

    申请号:CN202410154031.6

    申请日:2024-02-02

    Abstract: 本说明书实施例提供分布式任务调度方法、分布式任务调度系统及分布式任务处理系统。该分布式任务调度系统包括位于至少两个分布式任务处理节点处的至少两个任务调度器,每个分布式任务处理节点具有一个任务调度器。至少两个分布式任务处理节点处的任务调度器通过小世界网络保持网络连接,每个任务调度器保存与邻居分布式处理节点处的邻居调度器之间的网络连接信息、本地节点资源状态信息以及所连接的邻居分布式任务处理节点的邻居节点资源状态信息,并且基于所保存的本地节点资源状态信息和邻居节点资源状态信息,进行基于小世界网络的本地邻域任务调度和邻域任务路由。

    资源调度方法和装置、电子设备
    9.
    发明公开

    公开(公告)号:CN116450307A

    公开(公告)日:2023-07-18

    申请号:CN202211490807.9

    申请日:2022-11-25

    Abstract: 本公开披露了一种资源调度方法和装置,以及电子设备,以解决容器组在运行过程中,无法充分使用申请的资源量,造成集群资源浪费的问题。该资源调度方法包括:响应于目标容器组的资源申请请求,确定目标容器组在多个时间段的预估资源消耗数据,获取多个集群节点各自在多个时间段的资源量数据,基于预估资源消耗数据和资源量数据,将目标容器组调度至多个集群节点中的至少一个集群节点。由此可见,本公开是根据目标容器组在多个时间段的预估资源消耗数据来分配集群节点的,从而可以针对不同的时间段,为目标容器组分配不同的资源量,使目标容器组在运行过程中的每个时间段都能充分利用分配给该目标容器组的资源,减少了集群资源的浪费。

    推理系统的负载感知调度方法和推理系统

    公开(公告)号:CN119512748A

    公开(公告)日:2025-02-25

    申请号:CN202411588173.X

    申请日:2024-11-07

    Inventor: 丁治强 杨统凯

    Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,该方法应用于包括全局调度器和推理引擎的推理系统;推理引擎包括Prefill引擎和Decode引擎;Prefill引擎和Decode引擎分别包括至少一个计算实例;计算实例的计算资源包括所在的计算节点上搭载的GPU;该方法包括:全局调度器获取待执行的目标推理请求,以及基于所维护的GPU负载信息,确定GPU负载满足第一预设条件的Prefill引擎中的第一计算实例,并将目标推理请求发送至第一计算实例执行Prefill阶段的推理计算;Prefill引擎中与第一计算实例对应的第一本地调度器基于所维护的GPU负载信息,确定GPU负载满足第二预设条件的Decode引擎中的第二计算实例,并将Prefill阶段的推理计算结果发送至第二计算实例执行Decode阶段的推理计算。

Patent Agency Ranking