一种缓存方法、装置、存储介质以及电子设备

    公开(公告)号:CN118567791B

    公开(公告)日:2024-10-22

    申请号:CN202411044021.3

    申请日:2024-07-31

    Abstract: 本说明书提供的一种缓存方法、装置、存储介质以及电子设备,首先确定执行分布式模型训练任务所需的目标容器,以及,确定目标容器中训练程序执行分布式模型训练任务所需的目标训练数据集的路径信息,将路径信息与预设的缓存表中包含的各路径信息进行匹配,以判断目标训练数据集是否被缓存,若是,则从缓存表中确定出缓存目标训练数据集的计算节点的节点信息,以从缓存目标训练数据集的计算节点中获取目标训练数据集,并通过目标容器执行分布式模型训练任务,若否,则根据路径信息,从云端获取目标训练数据集,以通过获取的目标训练数据集,执行分布式模型训练任务。

    一种模型训练系统、方法、存储介质及电子设备

    公开(公告)号:CN118378726B

    公开(公告)日:2024-09-20

    申请号:CN202410830397.0

    申请日:2024-06-25

    Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。

    一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607B

    公开(公告)日:2024-09-03

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

    一种模型训练系统、方法、存储介质及电子设备

    公开(公告)号:CN118378726A

    公开(公告)日:2024-07-23

    申请号:CN202410830397.0

    申请日:2024-06-25

    Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。

    一种用于提升深度学习训练性能的数据交换方法及系统

    公开(公告)号:CN116976463A

    公开(公告)日:2023-10-31

    申请号:CN202310880317.8

    申请日:2023-07-18

    Abstract: 本发明公开了一种用于提升深度学习训练性能的数据交换方法及系统,包括:S1:数据载入,对共享存储中的所有训练样本编号,根据当前训练轮次生成随机的训练序列;节点包括:GPU、CPU、本地存储、存储引擎;第一轮的训练样本按照训练序列载入对应节点的本地存储中;S2:判断当前轮次是否为最后一轮,若是,执行S3;若否,执行S4;S3:每个节点的GPU使用本地存储的训练样本,按照训练序列进行当前轮次的深度学习训练;S4:GPU按照训练序列进行当前轮次的训练,同时CPU将本轮次已训练的训练样本和其他节点进行数据交换,完成后重复执行S2。本发明在训练过程中,将训练样本交换到其下个轮次所属的节点,避免在训练时的跨节点访问。

    一种适用于深度学习训练的IO加速系统及数据存储方法

    公开(公告)号:CN115470931A

    公开(公告)日:2022-12-13

    申请号:CN202211079412.X

    申请日:2022-09-05

    Abstract: 本发明公开一种适用于深度学习训练的IO加速系统及数据存储方法,该系统和方法在训练任务开始前,制备与轮次训练对应的副本;副本以对应轮次训练的随机序列为顺序、依据存储设备的特性存在存储设备中,使得按照该随机序列读取所述副本数据时,符合存储设备的顺序访问特性;每个轮次训练均从对应的副本中读取数据。本发明的方法将训练过程中对存储设备的随机IO转换为顺序IO,能够充分利用硬盘等顺序存储设备的性能。

    一种分布式模型训练、业务执行方法、存储介质及设备

    公开(公告)号:CN118690209B

    公开(公告)日:2025-01-28

    申请号:CN202411168953.9

    申请日:2024-08-23

    Abstract: 本说明书公开了一种分布式模型训练、业务执行方法、存储介质及设备,可以获取预设的本地分类模型对各本地训练数据进行分类后所输出的每种分类结果对应的特征表示原型,将每种分类结果对应的特征表示原型以及本地分类模型的模型参数发送给中心服务器,以使中心服务器根据各下游设备发送的特征表示原型,确定每种分类结果对应的整体特征表示原型,以及,将各下游设备发送的模型参数融合,得到融合模型参数,进而可以通过对比学习的方式,根据中心服务器确定出的每种分类结果对应的整体特征表示原型,对本地分类模型进行训练,以提升联邦学习的训练效果。

    模型训练显存优化方法、装置、电子装置和存储介质

    公开(公告)号:CN118313429B

    公开(公告)日:2024-10-11

    申请号:CN202410763197.8

    申请日:2024-06-13

    Abstract: 本申请涉及一种模型训练显存优化方法、装置、电子装置和存储介质,其中,该模型训练显存优化方法包括:获取模型原始参数,将模型原始参数进行备份,得到备份参数;根据模型结构确定候选暂退的模型连接;对候选暂退的模型连接不分配显存,并为除候选暂退的模型连接之外的其他模型连接分配显存;执行循环训练过程直至达到预设的训练终止条件,得到目标训练模型;循环训练过程包括:根据预设的暂退比例,对候选暂退的模型连接进行随机暂退后,得到目标连接;根据目标连接,从备份参数中复制参数进行半精度训练,得到半精度参数梯度;根据半精度参数梯度更新备份参数,提高了模型训练中显存的利用率和训练速度。

    一种分布式模型训练、业务执行方法、存储介质及设备

    公开(公告)号:CN118690209A

    公开(公告)日:2024-09-24

    申请号:CN202411168953.9

    申请日:2024-08-23

    Abstract: 本说明书公开了一种分布式模型训练、业务执行方法、存储介质及设备,可以获取预设的本地分类模型对各本地训练数据进行分类后所输出的每种分类结果对应的特征表示原型,将每种分类结果对应的特征表示原型以及本地分类模型的模型参数发送给中心服务器,以使中心服务器根据各下游设备发送的特征表示原型,确定每种分类结果对应的整体特征表示原型,以及,将各下游设备发送的模型参数融合,得到融合模型参数,进而可以通过对比学习的方式,根据中心服务器确定出的每种分类结果对应的整体特征表示原型,对本地分类模型进行训练,以提升联邦学习的训练效果。

Patent Agency Ranking