机器学习集群算力资源运维方法、系统、设备及存储介质

    公开(公告)号:CN116578412A

    公开(公告)日:2023-08-11

    申请号:CN202310427645.2

    申请日:2023-04-12

    Abstract: 本申请实施例提供了一种机器学习集群算力资源运维方法、系统、设备及存储介质,属于机器学习技术领域。该方法包括:获取工作节点执行机器学习任务时的算力资源数据;根据算力资源数据进行运维分析,得到运维需求;获取运维需求对应的任务模版,任务模版包含算力资源调度策略,算力资源调度策略用于表征任务模版对应的算力资源调度计划;根据运维需求和任务模版,确定算力资源调度指令;输出算力资源调度指令到工作节点,以使工作节点按照算力资源调度指令,确定执行机器学习任务的目标算力资源。本申请能够在提高机器学习集群日常算力资源运维管理准确度的同时,提高算力资源运维管理的效率。

    机器学习任务的资源管理方法、系统、设备及介质

    公开(公告)号:CN116501491A

    公开(公告)日:2023-07-28

    申请号:CN202310411262.6

    申请日:2023-04-10

    Abstract: 本申请实施例提供了一种机器学习任务的资源管理方法、系统、设备及介质,属于机器学习技术领域。方法包括:获取机器学习中的目标任务;获取目标任务对应的资源弹性伸缩计划策略;根据资源弹性伸缩计划策略确定目标任务执行过程中不同时间段下的资源配置需求,并根据多个资源配置需求生成目标任务执行过程中不同时间段下的资源约束信息;根据资源约束信息生成分时段的弹性伸缩任务,并根据弹性伸缩任务对目标任务执行过程中不同时间段下的资源进行资源申请或资源选定,确定完成资源申请或资源选定后的资源为目标资源。本申请能够提高机器学习任务中资源的利用率,降低机器学习的任务成本。

Patent Agency Ranking