-
公开(公告)号:CN118939395A
公开(公告)日:2024-11-12
申请号:CN202410970947.9
申请日:2024-07-19
Applicant: 北京邮电大学
Abstract: 本发明提供了一种面向大模型应用的任务分发方法及系统,涉及资源调度技术领域,方法包括:使用消息队列分发不同类型的任务到请求分发器;使用用户配置的分组策略对同一类型的任务分组,得到不同的任务组;基于最优匹配算法将不同的任务组调度到执行组件进行执行。本发明进行多个大模型任务的调度,能够充分利用到大模型推理优化手段中最重要的批处理方法,能够有效管理部署在多个节点的大模型,能够根据不同的请求类型对大模型任务进行分发,能够高效地调度大模型执行具体任务,还支持拓展或减少大模型任务类型。