-
公开(公告)号:CN117120978A
公开(公告)日:2023-11-24
申请号:CN202280021860.6
申请日:2022-03-03
Applicant: 微软技术许可有限责任公司
IPC: G06F9/46
Abstract: 本文的公开内容描述了用于深度学习(DL)作业的平台级检查点化。检查点化是通过捕获以下两种状态数据来执行的:(i)GPU状态(设备状态)和(ii)CPU状态(主机状态)。GPU状态包括位于GPU和GPU上下文(例如,GPU中的默认流、由诸如DNN、Blas等的库创建的各种句柄)中的GPU数据(例如,模型参数、优化器状态等)。由于检查点化是以域感知方式完成的,因此仅复制GPU存储器的部分。“活动”存储器包含如模型参数的有用数据。为了能够捕获有用数据,控制存储器管理以识别存储器的哪些部分是活动的。此外,为了将目的地GPU恢复到相同的上下文/状态,一种机制被用于捕获原始GPU上的这种状态改变事件并在目的地GPU上重放。
-
公开(公告)号:CN118511157A
公开(公告)日:2024-08-16
申请号:CN202380016169.3
申请日:2023-01-05
Applicant: 微软技术许可有限责任公司
IPC: G06F9/46
Abstract: 本公开描述了弹性地管理加速器设备上的多工作器工作负载的工作器的执行。在第一时间间隔期间在加速器设备上执行工作负载的第一工作器。当第一工作器处于第一工作器状态时,标识第一上下文切换点。在所标识的上下文切换点处,第一工作器的第一存储器状态被存储在主机存储器中,并且加速器设备被配置成第二工作器的第二存储器状态。在第二时间间隔期间执行第二工作器,并且当第二工作器处于与第一工作器状态等效的状态时,在第二时间间隔的结束时标识第二上下文切换点。在该间隔期间,累积工作器之间的集体通信操作,并且在第二上下文切换点处执行累积的操作。
-