-
公开(公告)号:CN117396850A
公开(公告)日:2024-01-12
申请号:CN202180098671.4
申请日:2021-05-28
Applicant: 华为云计算技术有限公司
IPC: G06F9/50
Abstract: 描述了用于为深度学习作业弹性分配资源的系统、方法和处理器可读介质。云计算系统的机器学习即服务(machine‑learning‑as‑a‑service,MLaaS)包括弹性训练模块,所述弹性训练模块包括用于将资源分配给训练作业的资源分配器,所述资源分配器优化所述系统接收的所有训练作业的总体估计完成时间(estimated time to completion,ETC)并使用基于节点的资源分配。所述弹性训练模块可以实现相对于现有方法的高资源利用率、短训练时间和低排队延迟的组合,从而潜在地可以针对向用户(即,客户)提供MLaaS的云计算系统实现更高利润。描述了一种改进的用户界面,使用户能够指定要弹性分配给所述用户的训练作业的资源范围,和/或通知所述用户通过使用弹性资源分配节省的训练时间。