-
公开(公告)号:CN118796772A
公开(公告)日:2024-10-18
申请号:CN202411276575.6
申请日:2024-09-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 一种文件访问方法,应用于执行计算任务的计算节点,计算节点的系统内核上挂载了在用户态上运行的用户态文件系统;与计算任务对应的第一用户态进程中实现了第一进程适配程序;与用户态文件系统对应的第二用户态进程中实现了第二进程适配程序;包括:第一进程适配程序拦截第一用户态进程针对用户态文件系统的访问请求;第一进程适配程序将访问请求在用户态传输至第二进程适配程序,由第二进程适配程序将访问请求提交给第二用户态进程;第二进程适配程序拦截第二用户态进程针对用户态文件系统进行访问处理产生的访问结果,并将访问结果在用户态传输至所述第一进程适配程序,由第一进程适配程序将访问结果提交给第一用户态程序。
-
公开(公告)号:CN118821973A
公开(公告)日:2024-10-22
申请号:CN202411281873.4
申请日:2024-09-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种模型训练及checkpoint文件存储的系统和方法,该系统包括模型训练模块和checkpoint文件处理模块;所述模型训练模块,用于执行人工智能模型的训练任务,该训练任务中的计算由GPU芯片执行;其中,在执行所述训练任务的过程中,若生成第一checkpoint文件,则中止所述训练任务,并向所述checkpoint文件处理模块请求写入所述第一checkpoint文件;所述checkpoint文件处理模块,用于根据收到的针对所述第一checkpoint文件的写入请求,将该第一checkpoint文件在本地进行缓存后,并行执行通知操作和存储操作;其中,所述通知操作用于向模型训练模块返回针对所述第一checkpoint文件的写入成功通知,以指示所述模型训练模块恢复所述训练任务,所述存储操作用于将所述第一checkpoint文件持久化。
-
公开(公告)号:CN118798396A
公开(公告)日:2024-10-18
申请号:CN202411281883.8
申请日:2024-09-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种用于人工智能模型训练的系统及checkpoint文件存储方法,该系统包括:模型训练模块和第一缓存模块;所述模型训练模块,用于从所述第一缓存模块处读取训练所需的数据集,以执行人工智能模型的训练任务,所述训练任务的计算由GPU芯片执行;以及,在执行所述训练任务的过程中,生成checkpoint文件并发送至所述第一缓存模块;所述第一缓存模块,对获取的待存储数据进行类型识别,其中:若所述待存储数据的类型为数据集,则先将所述待存储数据写入本地buffer,然后从本地buffer存入本地硬盘;若所述待存储数据的类型为checkpoint文件,则直接将所述待存储数据存入所述本地硬盘。
-
-