-
公开(公告)号:CN117873679A
公开(公告)日:2024-04-12
申请号:CN202410032938.5
申请日:2024-01-09
Applicant: 之江实验室
Abstract: 本申请涉及一种任务调度方法、装置、计算机设备和存储介质。所述装置包括:节点信息模块,用于采集并储存集群节点的历史节点信息以及历史任务信息;资源预测模块,用于根据历史节点信息和历史任务信息,计算得到针对集群节点的资源状态预测信息;调度器,用于接收当前待部署任务,并根据资源状态预测信息,确定集群节点中的至少一个当前部署节点,以及当前待部署任务中与当前部署节点对应的子任务;任务下发模块,连接所述调度器,用于向当前部署节点发送对应的子任务。采用本装置,通过所述资源预测模块,预测进行任务调度时的集群节点状态,保证时效性,避免因状态滞后导致调度未达到理想状况。
-
公开(公告)号:CN117215973B
公开(公告)日:2024-05-28
申请号:CN202311179609.5
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06F12/084 , G06N3/098
Abstract: 本申请涉及一种缓存数据的处理方法、深度学习训练方法和系统。应用于本地节点,本地节点连接远程节点以及服务器,本地节点设置有本地命中缓存区和本地淘汰缓存区:从本地命中缓存区中读取第一已缓存数据,并得到当前读取数据;其中,第一已缓存数据包括已分配至本地节点并缓存在本地命中缓存区的第一历史训练数据,以及本地节点从远程节点预读取并缓存至本地命中缓存区的第二历史训练数据;在服务器基于当前读取数据生成深度学习模型的情况下,本地节点将当前读取数据转移至淘汰缓存区中,得到第二已缓存数据。采用本方法能够提高深度学习训练的效率。
-
公开(公告)号:CN119623548A
公开(公告)日:2025-03-14
申请号:CN202411553118.7
申请日:2024-11-01
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练方法、一种任务执行时间预测方法及装置,具体包括:根据历史模型训练任务的历史资源占用数据,筛选出相似历史模型训练任务。将历史模型训练任务和相似历史模型训练任务的历史资源占用数据输入预测模型,使得其确定出历史模型训练任务对应的资源占用特征数据,从而确定历史模型训练任务对应的预测执行时长。根据预测执行时长和历史任务执行时长进行训练。训练后的预测模型根据目标模型训练任务的资源占用数据,确定目标模型训练任务的预测执行时长。本说明书中的方法预测效率更高且更加精准。进而使得后续资源分配时有效提升训练资源的利用率,避免资源浪费和搁置的同时,也极大程度上提高了整体训练过程的训练效率。
-
公开(公告)号:CN117369962A
公开(公告)日:2024-01-09
申请号:CN202311149336.X
申请日:2023-09-07
Applicant: 之江实验室
IPC: G06F9/48 , G06N3/092 , G06N3/084 , G06N3/0442 , G06N3/0455
Abstract: 本申请涉及一种工作流执行序列生成方法、装置、计算机设备和存储介质。所述方法包括:获取工作流执行序列数据集,所述工作流执行序列数据集包括训练工作流描述和对应的标准工作流执行序列,基于所述工作流执行序列数据集训练初始模型,得到执行序列生成模型,将目标工作流需求描述输入所述执行序列生成模型,得到初始工作流执行序列,若所述初始工作流执行序列不满足预设要求,则将所述初始工作流执行序列输入执行序列优化模型,确定目标工作流执行序列,所述执行序列优化模型由强化学习模型训练得到。不仅提高了工作流执行序列生成效率,节省了大量的人力和时间,同时提高了资源利用率。
-
公开(公告)号:CN117215973A
公开(公告)日:2023-12-12
申请号:CN202311179609.5
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06F12/084 , G06N3/098
Abstract: 本申请涉及一种缓存数据的处理方法、深度学习训练方法和系统。应用于本地节点,本地节点连接远程节点以及服务器,本地节点设置有本地命中缓存区和本地淘汰缓存区:从本地命中缓存区中读取第一已缓存数据,并得到当前读取数据;其中,第一已缓存数据包括已分配至本地节点并缓存在本地命中缓存区的第一历史训练数据,以及本地节点从远程节点预读取并缓存至本地命中缓存区的第二历史训练数据;在服务器基于当前读取数据生成深度学习模型的情况下,本地节点将当前读取数据转移至淘汰缓存区中,得到第二已缓存数据。采用本方法能够提高深度学习训练的效率。
-
-
-
-