-
公开(公告)号:CN118821973A
公开(公告)日:2024-10-22
申请号:CN202411281873.4
申请日:2024-09-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种模型训练及checkpoint文件存储的系统和方法,该系统包括模型训练模块和checkpoint文件处理模块;所述模型训练模块,用于执行人工智能模型的训练任务,该训练任务中的计算由GPU芯片执行;其中,在执行所述训练任务的过程中,若生成第一checkpoint文件,则中止所述训练任务,并向所述checkpoint文件处理模块请求写入所述第一checkpoint文件;所述checkpoint文件处理模块,用于根据收到的针对所述第一checkpoint文件的写入请求,将该第一checkpoint文件在本地进行缓存后,并行执行通知操作和存储操作;其中,所述通知操作用于向模型训练模块返回针对所述第一checkpoint文件的写入成功通知,以指示所述模型训练模块恢复所述训练任务,所述存储操作用于将所述第一checkpoint文件持久化。
-
公开(公告)号:CN118798396A
公开(公告)日:2024-10-18
申请号:CN202411281883.8
申请日:2024-09-12
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供一种用于人工智能模型训练的系统及checkpoint文件存储方法,该系统包括:模型训练模块和第一缓存模块;所述模型训练模块,用于从所述第一缓存模块处读取训练所需的数据集,以执行人工智能模型的训练任务,所述训练任务的计算由GPU芯片执行;以及,在执行所述训练任务的过程中,生成checkpoint文件并发送至所述第一缓存模块;所述第一缓存模块,对获取的待存储数据进行类型识别,其中:若所述待存储数据的类型为数据集,则先将所述待存储数据写入本地buffer,然后从本地buffer存入本地硬盘;若所述待存储数据的类型为checkpoint文件,则直接将所述待存储数据存入所述本地硬盘。
-
公开(公告)号:CN118796831A
公开(公告)日:2024-10-18
申请号:CN202410871730.2
申请日:2024-06-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/22 , G06F16/2457 , G06F16/27
Abstract: 本说明书实施例提供一种在向量数据库中写入、搜索向量数据的方法和装置。在向量数据库中写入向量数据的方法包括:接收针对目标向量数据的写入请求;在内存表中向量数据库的动态的第一索引中添加所述目标向量数据对应的索引更新信息;所述第一索引为基于内存的实时读写向量图索引;当所述内存表刷新到磁盘时,将所述内存表中动态的第一索引的索引更新信息存储到分布式文件系统,得到静态的第一索引;将所述分布式文件系统中静态的第一索引转化为第二索引;所述第二索引为基于磁盘的低成本向量图索引。能够兼顾实时性和存储成本。
-
公开(公告)号:CN113626192A
公开(公告)日:2021-11-09
申请号:CN202110912385.9
申请日:2021-08-10
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种用于对算子节点进行扩缩容调整的方法、装置及系统。在该方法中,响应于根据实时数据流所确定出的待调整并发算子节点,控制节点根据待调整并发算子节点的上下游算子节点构造算子节点拓扑图;控制节点向算子节点拓扑图中有调整的各个算子节点发送针对该算子节点的图状态更新信息,以使所述有调整的各个算子节点更新连接;控制节点向算子节点拓扑图中的源算子节点发送调整标识信息;在各个算子节点处,根据该算子节点与上下游算子节点的连接来获取调整标识信息,以基于调整标识信息进行算子节点的状态调整;以及控制节点响应于接收调整标识信息,向各个算子节点发送调整完成信息,以通知算子节点拓扑图完成。
-
公开(公告)号:CN113626192B
公开(公告)日:2024-11-22
申请号:CN202110912385.9
申请日:2021-08-10
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种用于对算子节点进行扩缩容调整的方法、装置及系统。在该方法中,响应于根据实时数据流所确定出的待调整并发算子节点,控制节点根据待调整并发算子节点的上下游算子节点构造算子节点拓扑图;控制节点向算子节点拓扑图中有调整的各个算子节点发送针对该算子节点的图状态更新信息,以使所述有调整的各个算子节点更新连接;控制节点向算子节点拓扑图中的源算子节点发送调整标识信息;在各个算子节点处,根据该算子节点与上下游算子节点的连接来获取调整标识信息,以基于调整标识信息进行算子节点的状态调整;以及控制节点响应于接收调整标识信息,向各个算子节点发送调整完成信息,以通知算子节点拓扑图完成。
-
公开(公告)号:CN118796772A
公开(公告)日:2024-10-18
申请号:CN202411276575.6
申请日:2024-09-11
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 一种文件访问方法,应用于执行计算任务的计算节点,计算节点的系统内核上挂载了在用户态上运行的用户态文件系统;与计算任务对应的第一用户态进程中实现了第一进程适配程序;与用户态文件系统对应的第二用户态进程中实现了第二进程适配程序;包括:第一进程适配程序拦截第一用户态进程针对用户态文件系统的访问请求;第一进程适配程序将访问请求在用户态传输至第二进程适配程序,由第二进程适配程序将访问请求提交给第二用户态进程;第二进程适配程序拦截第二用户态进程针对用户态文件系统进行访问处理产生的访问结果,并将访问结果在用户态传输至所述第一进程适配程序,由第一进程适配程序将访问结果提交给第一用户态程序。
-
公开(公告)号:CN115454702A
公开(公告)日:2022-12-09
申请号:CN202211134771.0
申请日:2022-09-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F11/07
Abstract: 本说明书公开了一种日志故障分析方法、装置、存储介质及电子设备,其方法包括:对日志进行故障分析时先获取待处理日志集合,基于故障日志数据库中的多个故障日志模板以及与多个故障日志模板对应的关联信息对该待处理日志集合进行匹配,得到匹配结果,并根据该匹配结果确定待处理日志集合的故障信息。
-
-
-
-
-
-