模型训练及checkpoint文件存储的系统和方法

    公开(公告)号:CN118821973A

    公开(公告)日:2024-10-22

    申请号:CN202411281873.4

    申请日:2024-09-12

    Abstract: 本说明书一个或多个实施例提供一种模型训练及checkpoint文件存储的系统和方法,该系统包括模型训练模块和checkpoint文件处理模块;所述模型训练模块,用于执行人工智能模型的训练任务,该训练任务中的计算由GPU芯片执行;其中,在执行所述训练任务的过程中,若生成第一checkpoint文件,则中止所述训练任务,并向所述checkpoint文件处理模块请求写入所述第一checkpoint文件;所述checkpoint文件处理模块,用于根据收到的针对所述第一checkpoint文件的写入请求,将该第一checkpoint文件在本地进行缓存后,并行执行通知操作和存储操作;其中,所述通知操作用于向模型训练模块返回针对所述第一checkpoint文件的写入成功通知,以指示所述模型训练模块恢复所述训练任务,所述存储操作用于将所述第一checkpoint文件持久化。

    用于人工智能模型训练的系统及checkpoint文件存储方法

    公开(公告)号:CN118798396A

    公开(公告)日:2024-10-18

    申请号:CN202411281883.8

    申请日:2024-09-12

    Abstract: 本说明书一个或多个实施例提供一种用于人工智能模型训练的系统及checkpoint文件存储方法,该系统包括:模型训练模块和第一缓存模块;所述模型训练模块,用于从所述第一缓存模块处读取训练所需的数据集,以执行人工智能模型的训练任务,所述训练任务的计算由GPU芯片执行;以及,在执行所述训练任务的过程中,生成checkpoint文件并发送至所述第一缓存模块;所述第一缓存模块,对获取的待存储数据进行类型识别,其中:若所述待存储数据的类型为数据集,则先将所述待存储数据写入本地buffer,然后从本地buffer存入本地硬盘;若所述待存储数据的类型为checkpoint文件,则直接将所述待存储数据存入所述本地硬盘。

    用于对算子节点进行扩缩容调整的方法、装置及系统

    公开(公告)号:CN113626192A

    公开(公告)日:2021-11-09

    申请号:CN202110912385.9

    申请日:2021-08-10

    Abstract: 本说明书实施例提供了一种用于对算子节点进行扩缩容调整的方法、装置及系统。在该方法中,响应于根据实时数据流所确定出的待调整并发算子节点,控制节点根据待调整并发算子节点的上下游算子节点构造算子节点拓扑图;控制节点向算子节点拓扑图中有调整的各个算子节点发送针对该算子节点的图状态更新信息,以使所述有调整的各个算子节点更新连接;控制节点向算子节点拓扑图中的源算子节点发送调整标识信息;在各个算子节点处,根据该算子节点与上下游算子节点的连接来获取调整标识信息,以基于调整标识信息进行算子节点的状态调整;以及控制节点响应于接收调整标识信息,向各个算子节点发送调整完成信息,以通知算子节点拓扑图完成。

    用于对算子节点进行扩缩容调整的方法、装置及系统

    公开(公告)号:CN113626192B

    公开(公告)日:2024-11-22

    申请号:CN202110912385.9

    申请日:2021-08-10

    Abstract: 本说明书实施例提供了一种用于对算子节点进行扩缩容调整的方法、装置及系统。在该方法中,响应于根据实时数据流所确定出的待调整并发算子节点,控制节点根据待调整并发算子节点的上下游算子节点构造算子节点拓扑图;控制节点向算子节点拓扑图中有调整的各个算子节点发送针对该算子节点的图状态更新信息,以使所述有调整的各个算子节点更新连接;控制节点向算子节点拓扑图中的源算子节点发送调整标识信息;在各个算子节点处,根据该算子节点与上下游算子节点的连接来获取调整标识信息,以基于调整标识信息进行算子节点的状态调整;以及控制节点响应于接收调整标识信息,向各个算子节点发送调整完成信息,以通知算子节点拓扑图完成。

    一种文件访问方法、装置
    6.
    发明公开

    公开(公告)号:CN118796772A

    公开(公告)日:2024-10-18

    申请号:CN202411276575.6

    申请日:2024-09-11

    Abstract: 一种文件访问方法,应用于执行计算任务的计算节点,计算节点的系统内核上挂载了在用户态上运行的用户态文件系统;与计算任务对应的第一用户态进程中实现了第一进程适配程序;与用户态文件系统对应的第二用户态进程中实现了第二进程适配程序;包括:第一进程适配程序拦截第一用户态进程针对用户态文件系统的访问请求;第一进程适配程序将访问请求在用户态传输至第二进程适配程序,由第二进程适配程序将访问请求提交给第二用户态进程;第二进程适配程序拦截第二用户态进程针对用户态文件系统进行访问处理产生的访问结果,并将访问结果在用户态传输至所述第一进程适配程序,由第一进程适配程序将访问结果提交给第一用户态程序。

Patent Agency Ranking