-
公开(公告)号:CN116932201A
公开(公告)日:2023-10-24
申请号:CN202310124944.9
申请日:2023-02-07
Applicant: 北京大学
Abstract: 本发明实施例提供一种面向深度学习训练任务的多资源共享调度方法。所述方法包括:获取提交至任务队列中的各个训练任务的资源使用数据;根据获取的所述资源使用数据和共享机制,确定训练任务之间的共享效率;根据获取的所述资源使用数据和所述共享效率,确定共享调度方案;通过所述共享调度方案,控制执行器集群进行训练任务的执行。旨在通过多资源共享和调度,大幅提高集群中多种资源利用率和大幅减少深度学习训练任务的完成时间。
-
公开(公告)号:CN117519954A
公开(公告)日:2024-02-06
申请号:CN202410020819.8
申请日:2024-01-08
Applicant: 北京大学
Abstract: 本申请提供了一种面向服务器无感知计算的多资源函数任务调度系统,涉及任务调度技术领域,系统包括:调度器和多个工作节点;调度器获取各个函数任务对多种资源中每种资源的使用情况;调度器根据所述各个函数任务对多种资源中每种资源的使用情况,将所有待执行的函数任务划分成多个函数任务共享组,并为多个函数任务共享组分配资源,得到调度策略;其中,每个函数任务共享组包括多个函数任务,且多个函数任务的不同阶段交错在一起进行资源共享,每个函数任务的不同阶段使用其阶段所需要的一种资源,其阶段不需要的资源共享给其所属的函数任务共享组内的其他函数任务使用;多个工作节点按照调度器生成的调度策略,执行对应的函数任务。
-
公开(公告)号:CN116089021B
公开(公告)日:2023-07-21
申请号:CN202310369688.X
申请日:2023-04-10
Applicant: 北京大学
Abstract: 本申请提供一种面向深度学习的大规模负载混部调度方法、装置及介质,涉及集群调度技术领域,包括:获取任务队列;获取第一特征、第二特征,并基于所述第一特征获取共享配置;将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。本申请通过引入在线负载对应的第一特征获取共享配置,保证了生成的第一时间节点下的最优调度方案可以不影响在线负载的延迟限制;同时生成的调度二部图中将最大权值的调度方案作为最优调度方案,保证了离线负载的执行效率。
-
公开(公告)号:CN116089021A
公开(公告)日:2023-05-09
申请号:CN202310369688.X
申请日:2023-04-10
Applicant: 北京大学
Abstract: 本申请提供一种面向深度学习的大规模负载混部调度方法、装置及介质,涉及集群调度技术领域,包括:获取任务队列;获取第一特征、第二特征,并基于所述第一特征获取共享配置;将所述第一特征、所述第二特征以及所述共享配置输入速度预测模型,获取共享吞吐量数据;基于所述共享吞吐量数据以及所述任务队列,获取调度二部图;基于所述调度二部图的最大权值,确定所述第一时间节点的最优调度方案。本申请通过引入在线负载对应的第一特征获取共享配置,保证了生成的第一时间节点下的最优调度方案可以不影响在线负载的延迟限制;同时生成的调度二部图中将最大权值的调度方案作为最优调度方案,保证了离线负载的执行效率。
-
-
-