一种基于运行时长预测的深度学习任务执行方法及装置

    公开(公告)号:CN119597601A

    公开(公告)日:2025-03-11

    申请号:CN202411503872.X

    申请日:2024-10-25

    Abstract: 本说明书公开了一种基于运行时长预测的深度学习任务执行方法及装置。所方法包括:通过智算集群中的各计算节点按照当前任务分配策略执行目标深度学习任务,并在目标深度学习任务执行指定时长后,获取各计算节点上的计算资源在指定时长内的性能监控数据序列,对各计算节点对应的性能监控数据进行处理,针对每个计算节点对应的目标监控数据,提取该目标监控数据在时域上的时域特征和该目标监控数据在频域上的频域特征;将时域特征和频域特征输入预先训练的时长预测模型,确定完成目标深度学习任务所需的运行时长,根据运行时长,对当前任务分配策略进行调整,以根据调整后的任务分配策略执行目标深度学习任务。

Patent Agency Ranking