-
公开(公告)号:CN117519943A
公开(公告)日:2024-02-06
申请号:CN202311646083.7
申请日:2023-12-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/48 , G06F40/30 , G06F40/284
Abstract: 本说明书实施例提供了生成式模型的处理调度方法及装置,其中,一种生成式模型的处理调度方法包括:获取到生成式模型的包含输入内容和处理指令的处理请求后,先根据输入内容和处理指令确定处理请求的预测生成长度,再根据处理请求的请求长度、预测生成长度和生成式模型的请求队列中各请求集的处理指标,在请求队列中确定请求集并将处理请求分发至该请求集,根据各请求集的等待时长、预测处理时长两个维度的时长信息,确定各请求集的调度顺序,以将各请求集调度至生成式模型。
-
公开(公告)号:CN118940843A
公开(公告)日:2024-11-12
申请号:CN202411068588.4
申请日:2024-08-05
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种大模型推理引擎的参数调优方法及装置,其中大模型推理引擎用于运行目标大模型以处理目标应用发起的推理请求。该方法包括:首先,获取多个观测样本,其中各观测样本包括一组配置参数,以及根据该组参数配置所述大模型推理引擎后,对所述目标应用的历史推理请求进行重放而确定的引擎性能指标;然后,利用所述多个观测样本初始化贝叶斯优化BO算法中的观测数据,以及,将所述BO算法中的目标函数定义为配置参数和引擎性能指标之间的映射关系,从而执行所述BO算法,得到使引擎性能指标发生优化的若干组配置参数。如此,可以实现利用BO算法适应不同上层应用关注的不同优化目标。
-
公开(公告)号:CN118819771A
公开(公告)日:2024-10-22
申请号:CN202410797672.3
申请日:2024-06-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/48
Abstract: 本说明书实施例提供一种针对大模型的请求调度方法及装置,在调度方法中,从请求池获取针对大模型的请求序列,其中大模型配置为,单次处理的输出长度为预定长度S。根据预定长度S,确定请求序列中各子序列的预计处理时长。根据预计处理时长,将请求序列中的请求划分为多个批次。将多个批次的请求,分别批量调度至多个推理引擎,进行基于大模型的单次处理,并将处理未完成的请求更新后返回请求池。
-
-