-
公开(公告)号:CN117519943A
公开(公告)日:2024-02-06
申请号:CN202311646083.7
申请日:2023-12-01
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/48 , G06F40/30 , G06F40/284
Abstract: 本说明书实施例提供了生成式模型的处理调度方法及装置,其中,一种生成式模型的处理调度方法包括:获取到生成式模型的包含输入内容和处理指令的处理请求后,先根据输入内容和处理指令确定处理请求的预测生成长度,再根据处理请求的请求长度、预测生成长度和生成式模型的请求队列中各请求集的处理指标,在请求队列中确定请求集并将处理请求分发至该请求集,根据各请求集的等待时长、预测处理时长两个维度的时长信息,确定各请求集的调度顺序,以将各请求集调度至生成式模型。
-
公开(公告)号:CN117313025A
公开(公告)日:2023-12-29
申请号:CN202311149090.6
申请日:2023-09-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/25 , G06F18/214 , G06F18/213
Abstract: 本说明书实施例提供了任务处理方法及装置,其中,一种任务处理方法包括:在获取到待处理任务的任务节点上候选变量的变量信息后,借助候选变量的变量信息计算候选变量之间的变量关系,并借助候选变量的关联变量的关联变量信息和候选变量与关联变量的变量关系,进行信息融合处理,获得候选变量的融合信息,根据候选变量的融合信息在候选变量中确定目标变量,以此在任务节点的子节点进行对应的任务处理。
-
公开(公告)号:CN118227670A
公开(公告)日:2024-06-21
申请号:CN202410303512.9
申请日:2024-03-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/2455 , G06F16/2453 , G06F21/57 , G06F16/23
Abstract: 本说明书实施例提供了资源处理规则的处理方法及装置,其中,一种资源处理规则的处理方法包括:在进行资源处理规则的检测过程中,获取资源处理规则的核验条件,将核验条件转换为核验策略,对核验策略的策略元素进行参数配置获得参数配置组合,并筛选未处于预设参数列表中的候选配置组合,在历史数据池中查询与候选配置组合配置的策略元素匹配的历史数据,根据历史数据的数据确定候选配置组合中的异常配置组合,根据异常配置组合配置的策略元素生成异常核验条件,以进行资源处理规则的更新。
-
公开(公告)号:CN118940843A
公开(公告)日:2024-11-12
申请号:CN202411068588.4
申请日:2024-08-05
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种大模型推理引擎的参数调优方法及装置,其中大模型推理引擎用于运行目标大模型以处理目标应用发起的推理请求。该方法包括:首先,获取多个观测样本,其中各观测样本包括一组配置参数,以及根据该组参数配置所述大模型推理引擎后,对所述目标应用的历史推理请求进行重放而确定的引擎性能指标;然后,利用所述多个观测样本初始化贝叶斯优化BO算法中的观测数据,以及,将所述BO算法中的目标函数定义为配置参数和引擎性能指标之间的映射关系,从而执行所述BO算法,得到使引擎性能指标发生优化的若干组配置参数。如此,可以实现利用BO算法适应不同上层应用关注的不同优化目标。
-
公开(公告)号:CN118819771A
公开(公告)日:2024-10-22
申请号:CN202410797672.3
申请日:2024-06-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F9/48
Abstract: 本说明书实施例提供一种针对大模型的请求调度方法及装置,在调度方法中,从请求池获取针对大模型的请求序列,其中大模型配置为,单次处理的输出长度为预定长度S。根据预定长度S,确定请求序列中各子序列的预计处理时长。根据预计处理时长,将请求序列中的请求划分为多个批次。将多个批次的请求,分别批量调度至多个推理引擎,进行基于大模型的单次处理,并将处理未完成的请求更新后返回请求池。
-
-
-
-