-
公开(公告)号:CN119248525B
公开(公告)日:2025-05-06
申请号:CN202411784836.5
申请日:2024-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。
-
公开(公告)号:CN115361349B
公开(公告)日:2023-08-15
申请号:CN202210883633.6
申请日:2022-07-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。
-
公开(公告)号:CN115543560A
公开(公告)日:2022-12-30
申请号:CN202211117315.5
申请日:2022-09-14
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种容器组调度方法及装置,该方法应用于运行在容器管理集群中的Master Node上的调度器;容器管理集群包括用于运行在容器管理集群中创建的Pod的多个Node;该方法包括:从Pod调度队列中获取待调度的多个Pod,并对多个Pod进行等价类划分,得到至少一个Pod集合;依次将至少一个Pod集合中的各个Pod集合确定为目标Pod集合;确定与目标Pod集合对应的目标可调度Node集合,并缓存目标Pod集合与目标可调度Node集合之间的对应关系;从目标可调度Node集合中确定出与目标Pod集合中的各个Pod对应的Node,并将目标Pod集合中的各个Pod绑定到与Pod对应的Node上;在完成将目标Pod集合中的各个Pod绑定到与Pod对应的Node上之后,删除缓存的对应关系。
-
公开(公告)号:CN119248522A
公开(公告)日:2025-01-03
申请号:CN202411783366.0
申请日:2024-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。
-
公开(公告)号:CN116048746A
公开(公告)日:2023-05-02
申请号:CN202211404430.0
申请日:2022-11-10
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书的实施例提供了一种基于分组调度的应用调度方法、装置和系统。在该基于分组调度的应用调度方法中,接收来自客户端的应用调度请求,其中,所述应用调度请求包括用于指示各个待调度应用之间的链式调用关系的描述信息;根据所述链式调用关系,将各个待调度应用分入至少一个调度对象组,其中,位于同一调度对象组内的待调度应用具有同一链式调用关系;以及以调度对象组为单位,将各个待调度应用调度至目标节点。
-
公开(公告)号:CN115361349A
公开(公告)日:2022-11-18
申请号:CN202210883633.6
申请日:2022-07-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种资源使用方法及装置。该方法包括:确定当前剩余资源的数量小于预留资源数量的节点;针对所确定的每一个节点,计算在该节点中各已分配业务请求已经占用的资源总数量,根据计算出的资源总数量判断该节点是否可满足所述预留资源数量,如果满足,则将该节点标记为可迁移节点;从各个可迁移节点中选择一个待迁移节点;将该待迁移节点对应的M个已分配业务请求迁移到至少一个其他节点;释放该待迁移节点中M个已分配业务请求占用的资源;其中,M满足:在释放M个已分配业务请求所占用的资源后,该待迁移节点中的剩余资源的数量不小于所述预留资源数量。本说明书实施例能够更好地利用资源,减少资源浪费。
-
公开(公告)号:CN119248525A
公开(公告)日:2025-01-03
申请号:CN202411784836.5
申请日:2024-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请一个或多个实施例提供一种推理系统的内存管理方法和装置,所述方法应用于推理系统中的推理引擎;所述推理引擎的计算资源包括用于部署所述推理引擎的计算设备上搭载的GPU;所述推理引擎维护了用于调度推理请求集合的调度队列;所述方法包括:根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定内存管理时间窗口;计算所述内存管理时间窗口内与所述推理请求集合对应的GPU内存需求量,并根据所述GPU内存需求量,为所述推理请求集合分配GPU内存;在所述内存管理时间窗口结束时,重新根据与所述调度队列中正在执行的推理请求集合相关联的数据处理时长,确定与所述内存管理时间窗口对应的后一个内存管理时间窗口。
-
公开(公告)号:CN118012590A
公开(公告)日:2024-05-10
申请号:CN202410154031.6
申请日:2024-02-02
Applicant: 浙江大学 , 支付宝(杭州)信息技术有限公司
IPC: G06F9/48
Abstract: 本说明书实施例提供分布式任务调度方法、分布式任务调度系统及分布式任务处理系统。该分布式任务调度系统包括位于至少两个分布式任务处理节点处的至少两个任务调度器,每个分布式任务处理节点具有一个任务调度器。至少两个分布式任务处理节点处的任务调度器通过小世界网络保持网络连接,每个任务调度器保存与邻居分布式处理节点处的邻居调度器之间的网络连接信息、本地节点资源状态信息以及所连接的邻居分布式任务处理节点的邻居节点资源状态信息,并且基于所保存的本地节点资源状态信息和邻居节点资源状态信息,进行基于小世界网络的本地邻域任务调度和邻域任务路由。
-
公开(公告)号:CN116450307A
公开(公告)日:2023-07-18
申请号:CN202211490807.9
申请日:2022-11-25
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本公开披露了一种资源调度方法和装置,以及电子设备,以解决容器组在运行过程中,无法充分使用申请的资源量,造成集群资源浪费的问题。该资源调度方法包括:响应于目标容器组的资源申请请求,确定目标容器组在多个时间段的预估资源消耗数据,获取多个集群节点各自在多个时间段的资源量数据,基于预估资源消耗数据和资源量数据,将目标容器组调度至多个集群节点中的至少一个集群节点。由此可见,本公开是根据目标容器组在多个时间段的预估资源消耗数据来分配集群节点的,从而可以针对不同的时间段,为目标容器组分配不同的资源量,使目标容器组在运行过程中的每个时间段都能充分利用分配给该目标容器组的资源,减少了集群资源的浪费。
-
公开(公告)号:CN119512748A
公开(公告)日:2025-02-25
申请号:CN202411588173.X
申请日:2024-11-07
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,该方法应用于包括全局调度器和推理引擎的推理系统;推理引擎包括Prefill引擎和Decode引擎;Prefill引擎和Decode引擎分别包括至少一个计算实例;计算实例的计算资源包括所在的计算节点上搭载的GPU;该方法包括:全局调度器获取待执行的目标推理请求,以及基于所维护的GPU负载信息,确定GPU负载满足第一预设条件的Prefill引擎中的第一计算实例,并将目标推理请求发送至第一计算实例执行Prefill阶段的推理计算;Prefill引擎中与第一计算实例对应的第一本地调度器基于所维护的GPU负载信息,确定GPU负载满足第二预设条件的Decode引擎中的第二计算实例,并将Prefill阶段的推理计算结果发送至第二计算实例执行Decode阶段的推理计算。
-
-
-
-
-
-
-
-
-