适用于分布式深度学习训练预取缓存管理的方法和装置

    公开(公告)号:CN116501696B

    公开(公告)日:2023-09-01

    申请号:CN202310790835.0

    申请日:2023-06-30

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种适用于分布式深度学习训练预取缓存管理的方法和装置,包括:深度学习任务初始化时,初始化预取缓存空间;在深度学习训练任务每个轮次训练开始前,生成轮次的洗牌序列,按照该洗牌序列构建缓存索引;在深度学习训练任务进行训练时,根据缓存索引,从预取缓存空间中获取数据,若缓存未命中,则以存储节点为划分依据,到分布式存储中进行批量预取;在预取缓存空间已用容量达到指定阈值时启动缓存淘汰,淘汰掉缓存命中的数据。该方法和装置以存储节点为划分依据进行批量预取,减少了节点之间的通信次数,提高了通信效率,同时,对缓存命中的数据进行淘汰,使得缓存中都是即将命中的数据,提高了缓存命中率。

    一种深度学习训练数据集快速载入临时缓存方法和装置

    公开(公告)号:CN116136838B

    公开(公告)日:2023-07-25

    申请号:CN202310420302.3

    申请日:2023-04-19

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种深度学习训练数据集快速载入临时缓存方法和装置,该方法用于使用临时缓存对深度学习训练进行加速时,提升数据从远端共享存储载入本地高速存储模块的性能。本发明核心思想是根据共享存储IO特性以及计算节点并发规模,将数据集样本预先组织成合适大小的文件,以解决载入时的元数据热点问题,同时挖掘共享存储的大IO单元优势和高并发访问优势。方法包括三个模块:样本聚合模块,用于在共享存储中把原始样本文件重新组织成适合高速载入的文件;载入模块,用于在训练的初始化阶段把共享存储中经过重新组织的数据集文件加载到临时缓存;样本读取模块,用于在训练过程中从载入临时缓存的数据集中识别并读取训练样本。

    一种存储资源调度方法、装置、存储介质及电子设备

    公开(公告)号:CN119179581B

    公开(公告)日:2025-04-15

    申请号:CN202411684883.2

    申请日:2024-11-22

    Abstract: 本说明书公开了一种存储资源调度方法、装置、存储介质及电子设备,可以通过预先构建的包含有多级分层的数据存储系统,执行针对目标模型的训练任务,并在执行针对目标模型的训练任务的过程中,可以基于预先确定的不同训练样本的数据质量参数,以及目标模型在不同的训练周期的不同的状态参数下对数据质量不同的训练样本数据的需求,对设置于不同分层中的不同异构存储资源进行调度管理,以提升水平方向的数据存取效率,从而可以从横纵两方面全面提升数据的存取效率,进而可以提升模型的训练效率。

    一种基于特征分布的模型训练方法和任务执行方法

    公开(公告)号:CN118691933B

    公开(公告)日:2024-11-15

    申请号:CN202411168955.8

    申请日:2024-08-23

    Abstract: 本说明书公开了一种基于特征分布的模型训练方法和任务执行方法。所述模型训练方法包括:客户端获取本地的各样本图像,并确定每个样本图像对应的标签信息;针对每个样本图像,将该样本图像输入待训练的本地分类模型,确定该样本图像对应的数据特征并确定分类结果;根据每个样本图像的标签信息,确定每个样本图像对应数据特征的数据分布,并根据数据分布确定个体数据特征,将个体数据特征发送给服务器,服务器根据接收到的各客户端发送的个体数据特征,确定全局数据特征,并将全局数据特征返回给各客户端;根据分类结果和标签信息的之间偏差,以及个体数据特征和全局数据特征之间的偏差,确定损失值;根据损失值对本地分类模型的模型参数进行更新。

    一种基于特征分布的模型训练方法和任务执行方法

    公开(公告)号:CN118691933A

    公开(公告)日:2024-09-24

    申请号:CN202411168955.8

    申请日:2024-08-23

    Abstract: 本说明书公开了一种基于特征分布的模型训练方法和任务执行方法。所述模型训练方法包括:客户端获取本地的各样本图像,并确定每个样本图像对应的标签信息;针对每个样本图像,将该样本图像输入待训练的本地分类模型,确定该样本图像对应的数据特征并确定分类结果;根据每个样本图像的标签信息,确定每个样本图像对应数据特征的数据分布,并根据数据分布确定个体数据特征,将个体数据特征发送给服务器,服务器根据接收到的各客户端发送的个体数据特征,确定全局数据特征,并将全局数据特征返回给各客户端;根据分类结果和标签信息的之间偏差,以及个体数据特征和全局数据特征之间的偏差,确定损失值;根据损失值对本地分类模型的模型参数进行更新。

    一种模型数据的管理方法、装置、存储介质及电子设备

    公开(公告)号:CN118377436B

    公开(公告)日:2024-09-13

    申请号:CN202410821445.X

    申请日:2024-06-24

    Abstract: 本说明书公开了一种模型数据的管理方法、装置、存储介质及电子设备。所述模型数据的管理方法包括:获取待存储的模型数据,并按照预设的数据页存储空间,将模型数据划分为若干个第一数据页;基于当前时刻生成的密钥,对每个第一数据页进行加密,得到各加密数据页,并根据各加密数据页生成的散列值对密钥进行加密,得到密钥数据页;构建包含各加密数据页和密钥数据页的数据条,并进行冗余编码,得到至少两个冗余数据页;将数据条中的各数据页和各冗余数据页写入存储设备,并对存储设备中存储的数据进行读取、恢复、更新、删除等数据管理。本方案有效避免了数据泄露以及损坏的风险,提高了数据的安全性。

    基于对比学习和结构化信息增强多模态特征融合的方法

    公开(公告)号:CN118627020A

    公开(公告)日:2024-09-10

    申请号:CN202411110491.5

    申请日:2024-08-14

    Abstract: 本发明公开了一种基于对比学习和结构化信息增强多模态特征融合的方法,基于对比学习的多模态网络,通过利用结构化信息构造的正负样本数据,充分挖掘模态特征之间的对应关系,基于对应关系,注入结构化信息增强模态特征的融合;本发明通过对原始数据集中成对的图片、文本对中的文本数据进行结构化处理,获取文本数据中的对象、对象关系、对象属性等信息构造文本语义负样本和结构知识特征,结构知识特征注入到文本特征中后,在对比学习模块中与文本正样本和图片数据一起进行特征对齐,基于对齐特征送入特征融合模块进行特征融合。本发明充分利用文本模态的结构信息进行特征对齐以及利用融合特征进行联合优化,极大地提升了模型的多模态理解能力。

    一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607A

    公开(公告)日:2024-07-26

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

    一种通过3D对比学习增强多模态图文检索的方法及装置

    公开(公告)号:CN118035427B

    公开(公告)日:2024-07-23

    申请号:CN202410448201.1

    申请日:2024-04-15

    Abstract: 本发明公开了一种通过3D对比学习增强多模态图文检索的方法及装置,基于3D对比学习的多模态网络,通过属性信息监督模态特征之间的交互,充分挖掘模态之间的对应关系,从而能利用模态之间互补的、对齐的信息;在本发明方法中通过对原始数据集中成对的图片、文本对以及对应的属性信息进行特征抽取获得这三个维度的特征,然后送入到3D对比学习模块中,经过充分对比融合、特征对齐,获得视觉模态和文本模态之间的互补信息以及潜在对应关系。本发明通过3D对比学习增强多模态图片文本的检索,能充分利用图片的视觉模态信息、文本模态信息以及它们共享的属性信息这些特征进行联合优化,从而极大地提升了图片文本的检索准确率。

Patent Agency Ranking