一种面向在线训练的算力资源弹性分配系统

    公开(公告)号:CN119166278A

    公开(公告)日:2024-12-20

    申请号:CN202411187004.5

    申请日:2024-08-28

    Abstract: 本公开提供一种面向在线训练的算力资源弹性分配系统。包括用户端、集群资源管理器、弹性调度器以及使用待分配的GPU的工作节点,弹性调度器包括三个组件:工作负载预测器、工作节点估计器和在线学习自动伸缩器;工作节点估计器在对未来的工作负载预测的基础上,采用一个资源吞吐量模型来确定分布式训练最合适的工作节点数量;在线学习自动伸缩器对工作节点进行扩展或缩减,并在通过集群资源管理器的后续审批后,为工作节点分配更多的GPU或将GPU回收到资源池中。借此,本公开实现了更好地保证在线训练模型的性能和更加节约算力资源的效果。

Patent Agency Ranking