深度神经网络服务批处理调度方法、系统及GPU

    公开(公告)号:CN112817730B

    公开(公告)日:2022-08-16

    申请号:CN202110209701.6

    申请日:2021-02-24

    Abstract: 本发明提供一种深度神经网络服务批处理调度方法、系统及GPU,所述深度神经网络服务批处理调度方法包括:构建包含多个批处理调度策略的批处理调度策略池;基于用户输入的服务质量要求信息和神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;基于批处理调度策略的配置情况对所述神经网络模型执行服务调度。本发明可以为新兴的深度神经网络技术落地提供支持,可以构建具有商业意义的、基于模型多样性感知的深度神经网络服务批处理调度系统,面向用户简化神经网络推理调度服务的优化,优化整个神经网络的服务响应速度。

    Warp级别调度的任务调度方法、系统、GPU及设备

    公开(公告)号:CN113407333A

    公开(公告)日:2021-09-17

    申请号:CN202011506442.5

    申请日:2020-12-18

    Abstract: 本发明提供一种Warp级别调度的任务调度方法、系统、GPU及设备,所述Warp级别调度的任务调度方法包括:在任务为首次任务时,离线分析用户提交任务的硬件信息及配置信息;基于所述任务的硬件信息和配置信息,获取与主流任务并行时的最大并行度;在任务为非首次任务时,基于任务的硬件信息和已收集的最大并行度决策,进行在线的任务对打包决策,将选取的任务对打包成一个新任务,并将新任务提交到GPU上,以使得任务对中的原有两个GPU任务实现warp级别的任务调度。本发明在无需用户感知提前下,实现高吞吐的Warp级别调度的任务调度,可以间接为潜在的配置多种计算单元的GPU提供调度技术的支持。

    基于确定性算子共存的服务调度方法及其应用的GPU

    公开(公告)号:CN114691314B

    公开(公告)日:2024-07-19

    申请号:CN202111199598.8

    申请日:2021-10-14

    Abstract: 本发明提供一种基于确定性算子共存的服务调度方法及其应用的GPU,所述基于确定性算子共存的服务调度方法包括:包括:利用一共存感知的延迟预测器预测每一个算子调度组的处理时间;利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求,在每一个轮次中,确定接收到的所有请求的处理顺序,并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组;利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。本发明保证了多个深度学习服务混合运行的服务质量保证,同时还提高了吞吐,提升了GPU利用率。

    资源需求感知的多队列调度方法、系统及服务器

    公开(公告)号:CN113407313A

    公开(公告)日:2021-09-17

    申请号:CN202011357682.3

    申请日:2020-11-27

    Abstract: 本发明提供一种资源需求感知的多队列调度方法、系统及服务器,所述方法包括:获取用户提交的任务,并判断任务为CPU任务或GPU任务;在任务为GPU任务时,基于调整CPU核数并检查GPU利用率确定最优的CPU配置,进入GPU任务任务调度;在任务为CPU任务时,直接进入CPU任务调度;执行GPU任务调度:对CPU资源划进行划分,并根据当前CPU任务队列和GPU任务队列的排队状况调整CPU资源队列;对GPU资源划进行划分,并根据当前GPU任务队列的排队状况调整GPU资源队列;消除GPU任务与CPU任务在同一个节点上的内存系统的竞争。本发明可以在无需用户感知的前提下,最大化系统的吞吐和最小化系统的排队。

    资源需求感知的多队列调度方法、系统及服务器

    公开(公告)号:CN113407313B

    公开(公告)日:2022-05-17

    申请号:CN202011357682.3

    申请日:2020-11-27

    Abstract: 本发明提供一种资源需求感知的多队列调度方法、系统及服务器,所述方法包括:获取用户提交的任务,并判断任务为CPU任务或GPU任务;在任务为GPU任务时,基于调整CPU核数并检查GPU利用率确定最优的CPU配置,进入GPU任务任务调度;在任务为CPU任务时,直接进入CPU任务调度;执行GPU任务调度:对CPU资源划进行划分,并根据当前CPU任务队列和GPU任务队列的排队状况调整CPU资源队列;对GPU资源划进行划分,并根据当前GPU任务队列的排队状况调整GPU资源队列;消除GPU任务与CPU任务在同一个节点上的内存系统的竞争。本发明可以在无需用户感知的前提下,最大化系统的吞吐和最小化系统的排队。

    面向GPU集群的深度学习训练任务调度系统

    公开(公告)号:CN115904666A

    公开(公告)日:2023-04-04

    申请号:CN202211620686.5

    申请日:2022-12-16

    Abstract: 一种面向GPU集群的深度学习训练任务调度系统,包括:离线性能刻画模块和在线任务调度部署模块,离线性能刻画模块分别预测不同训练任务的相似度以确定新提交任务的待采集硬件指标集以及两个训练任务混合部署后产生的性能下降程度,即性能干扰度,并离线采集训练任务在独占GPU模式下不同批大小的计算时间以拟合得到其批大小‑计算时间关系;在线任务调度部署模块从任务队列中取出待调度任务并根据批大小‑计算时间关系以及性能干扰度生成待调度任务的GPU亲和性和批大小分布策略,根据用户提交的训练任务及用户指定的GPU数量分为其分配合适的GPU,即混合部署后性能干扰最小的GPU以最小化平均作业完成时间并提高集群资源利用率,彻底解决GPU集群中,对于部分训练任务无法单独充分利用GPU资源和需要遵守组调度原则的条件下,最大化系统整体吞吐并提高集群资源利用率的问题。

    基于确定性算子共存的服务调度方法及其应用的GPU

    公开(公告)号:CN114691314A

    公开(公告)日:2022-07-01

    申请号:CN202111199598.8

    申请日:2021-10-14

    Abstract: 本发明提供一种基于确定性算子共存的服务调度方法及其应用的GPU,所述基于确定性算子共存的服务调度方法包括:包括:利用一共存感知的延迟预测器预测每一个算子调度组的处理时间;利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求,在每一个轮次中,确定接收到的所有请求的处理顺序,并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组;利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。本发明保证了多个深度学习服务混合运行的服务质量保证,同时还提高了吞吐,提升了GPU利用率。

    深度神经网络服务批处理调度方法、系统及GPU

    公开(公告)号:CN112817730A

    公开(公告)日:2021-05-18

    申请号:CN202110209701.6

    申请日:2021-02-24

    Abstract: 本发明提供一种深度神经网络服务批处理调度方法、系统及GPU,所述深度神经网络服务批处理调度方法包括:构建包含多个批处理调度策略的批处理调度策略池;基于用户输入的服务质量要求信息和神经网络模型的类型确定对应的批处理调度策略,并配置所述确定的批处理调度策略;基于批处理调度策略的配置情况对所述神经网络模型执行服务调度。本发明可以为新兴的深度神经网络技术落地提供支持,可以构建具有商业意义的、基于模型多样性感知的深度神经网络服务批处理调度系统,面向用户简化神经网络推理调度服务的优化,优化整个神经网络的服务响应速度。

Patent Agency Ranking