-
公开(公告)号:CN113407313B
公开(公告)日:2022-05-17
申请号:CN202011357682.3
申请日:2020-11-27
Applicant: 上海交通大学
Abstract: 本发明提供一种资源需求感知的多队列调度方法、系统及服务器,所述方法包括:获取用户提交的任务,并判断任务为CPU任务或GPU任务;在任务为GPU任务时,基于调整CPU核数并检查GPU利用率确定最优的CPU配置,进入GPU任务任务调度;在任务为CPU任务时,直接进入CPU任务调度;执行GPU任务调度:对CPU资源划进行划分,并根据当前CPU任务队列和GPU任务队列的排队状况调整CPU资源队列;对GPU资源划进行划分,并根据当前GPU任务队列的排队状况调整GPU资源队列;消除GPU任务与CPU任务在同一个节点上的内存系统的竞争。本发明可以在无需用户感知的前提下,最大化系统的吞吐和最小化系统的排队。
-
公开(公告)号:CN112817730B
公开(公告)日:2022-08-16
申请号:CN202110209701.6
申请日:2021-02-24
Applicant: 上海交通大学
Abstract: 本发明提供一种深度神经网络服务批处理调度方法、系统及GPU,所述深度神经网络服务批处理调度方法包括:构建包含多个批处理调度策略的批处理调度策略池;基于用户输入的服务质量要求信息和神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;基于批处理调度策略的配置情况对所述神经网络模型执行服务调度。本发明可以为新兴的深度神经网络技术落地提供支持,可以构建具有商业意义的、基于模型多样性感知的深度神经网络服务批处理调度系统,面向用户简化神经网络推理调度服务的优化,优化整个神经网络的服务响应速度。
-
公开(公告)号:CN113407333A
公开(公告)日:2021-09-17
申请号:CN202011506442.5
申请日:2020-12-18
Applicant: 上海交通大学
Abstract: 本发明提供一种Warp级别调度的任务调度方法、系统、GPU及设备,所述Warp级别调度的任务调度方法包括:在任务为首次任务时,离线分析用户提交任务的硬件信息及配置信息;基于所述任务的硬件信息和配置信息,获取与主流任务并行时的最大并行度;在任务为非首次任务时,基于任务的硬件信息和已收集的最大并行度决策,进行在线的任务对打包决策,将选取的任务对打包成一个新任务,并将新任务提交到GPU上,以使得任务对中的原有两个GPU任务实现warp级别的任务调度。本发明在无需用户感知提前下,实现高吞吐的Warp级别调度的任务调度,可以间接为潜在的配置多种计算单元的GPU提供调度技术的支持。
-
公开(公告)号:CN114691314B
公开(公告)日:2024-07-19
申请号:CN202111199598.8
申请日:2021-10-14
Applicant: 上海交通大学
Abstract: 本发明提供一种基于确定性算子共存的服务调度方法及其应用的GPU,所述基于确定性算子共存的服务调度方法包括:包括:利用一共存感知的延迟预测器预测每一个算子调度组的处理时间;利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求,在每一个轮次中,确定接收到的所有请求的处理顺序,并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组;利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。本发明保证了多个深度学习服务混合运行的服务质量保证,同时还提高了吞吐,提升了GPU利用率。
-
公开(公告)号:CN110837419B
公开(公告)日:2023-05-19
申请号:CN201911088741.9
申请日:2019-11-08
Applicant: 上海交通大学
Abstract: 本发明提供一种基于弹性批处理的推理引擎系统、方法及电子设备,所述基于弹性批处理的推理引擎方法包括:获取用户输入的待推理请求数据;获取最大并行批处理数量和待推理请求的数量;根据所述最大并行批处理数量和所述待推理请求的数量将所述待处理推理请求数据按需组织成为合适批处理大小的批处理数据,并唤醒深度神经网络推理引擎模块中与所述批处理数据的大小对应的子引擎,由所述子引擎处理所述待处理推理请求。本发明在无需增加硬件设备包括图形处理器等的前提下,极大化引擎系统的响应延迟速度和吞吐量。
-
公开(公告)号:CN113407313A
公开(公告)日:2021-09-17
申请号:CN202011357682.3
申请日:2020-11-27
Applicant: 上海交通大学
Abstract: 本发明提供一种资源需求感知的多队列调度方法、系统及服务器,所述方法包括:获取用户提交的任务,并判断任务为CPU任务或GPU任务;在任务为GPU任务时,基于调整CPU核数并检查GPU利用率确定最优的CPU配置,进入GPU任务任务调度;在任务为CPU任务时,直接进入CPU任务调度;执行GPU任务调度:对CPU资源划进行划分,并根据当前CPU任务队列和GPU任务队列的排队状况调整CPU资源队列;对GPU资源划进行划分,并根据当前GPU任务队列的排队状况调整GPU资源队列;消除GPU任务与CPU任务在同一个节点上的内存系统的竞争。本发明可以在无需用户感知的前提下,最大化系统的吞吐和最小化系统的排队。
-
公开(公告)号:CN115904666A
公开(公告)日:2023-04-04
申请号:CN202211620686.5
申请日:2022-12-16
Applicant: 上海交通大学
Abstract: 一种面向GPU集群的深度学习训练任务调度系统,包括:离线性能刻画模块和在线任务调度部署模块,离线性能刻画模块分别预测不同训练任务的相似度以确定新提交任务的待采集硬件指标集以及两个训练任务混合部署后产生的性能下降程度,即性能干扰度,并离线采集训练任务在独占GPU模式下不同批大小的计算时间以拟合得到其批大小‑计算时间关系;在线任务调度部署模块从任务队列中取出待调度任务并根据批大小‑计算时间关系以及性能干扰度生成待调度任务的GPU亲和性和批大小分布策略,根据用户提交的训练任务及用户指定的GPU数量分为其分配合适的GPU,即混合部署后性能干扰最小的GPU以最小化平均作业完成时间并提高集群资源利用率,彻底解决GPU集群中,对于部分训练任务无法单独充分利用GPU资源和需要遵守组调度原则的条件下,最大化系统整体吞吐并提高集群资源利用率的问题。
-
公开(公告)号:CN114691314A
公开(公告)日:2022-07-01
申请号:CN202111199598.8
申请日:2021-10-14
Applicant: 上海交通大学
Abstract: 本发明提供一种基于确定性算子共存的服务调度方法及其应用的GPU,所述基于确定性算子共存的服务调度方法包括:包括:利用一共存感知的延迟预测器预测每一个算子调度组的处理时间;利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求,在每一个轮次中,确定接收到的所有请求的处理顺序,并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组;利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。本发明保证了多个深度学习服务混合运行的服务质量保证,同时还提高了吞吐,提升了GPU利用率。
-
公开(公告)号:CN112817730A
公开(公告)日:2021-05-18
申请号:CN202110209701.6
申请日:2021-02-24
Applicant: 上海交通大学
Abstract: 本发明提供一种深度神经网络服务批处理调度方法、系统及GPU,所述深度神经网络服务批处理调度方法包括:构建包含多个批处理调度策略的批处理调度策略池;基于用户输入的服务质量要求信息和神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;基于批处理调度策略的配置情况对所述神经网络模型执行服务调度。本发明可以为新兴的深度神经网络技术落地提供支持,可以构建具有商业意义的、基于模型多样性感知的深度神经网络服务批处理调度系统,面向用户简化神经网络推理调度服务的优化,优化整个神经网络的服务响应速度。
-
公开(公告)号:CN118916156A
公开(公告)日:2024-11-08
申请号:CN202410946115.3
申请日:2024-07-15
Applicant: 上海交通大学
Abstract: 一种基于自适应并行共优化的大模型异构集群调度系统及方法,包括:基于执行流建模的性能分析器、集群弹性抢占式任务调度器以及任务并行执行引擎,其中:集群弹性抢占式任务调度器根据任务队列动态改变任务的计算资源,得到不同集群任务负载下近似最优的任务资源分配;性能分析器根据来自集群弹性抢占式任务调度器的模型并行块和来自异构GPU集群的硬件信息,进行单设备上的并行块算子延迟测量,估计得到每一个并行块所定义的子空间内最优并行策略的迭代时间;任务并行执行引擎接收调度后的并行块进行基于剪枝后搜索空间下的并行搜索、生成任务及其最优并行策略后输出至异构GPU集群。本发明保证了多个大模型训练任务的高效性能分析,集群级别的吞吐性能和资源利用率提高以及任务级别的任务完成时间减少。
-
-
-
-
-
-
-
-
-