-
公开(公告)号:CN114598631B
公开(公告)日:2022-08-09
申请号:CN202210455426.0
申请日:2022-04-28
Applicant: 之江实验室
Abstract: 本发明提供了一种面向神经网络计算的分布式数据路由的建模方法和装置,包括如下步骤:S1:设计物理张量的分布式属性:将逻辑张量与物理张量的映射关系抽象为广播属性、散播属性和局部规约属性三种分布式属性;S2:推演输出张量的分布式属性:指定输入张量的分布式属性,然后根据已知的输入张量的分布式属性推演输出张量的合法分布式属性;S3:根据分布式属性情形判断是否需要插入中间通信原语得到局部物理张量的分布式属性;利用所述的面向神经网络计算的分布式数据路由的建模方法和装置搭建模型,分布式设计和开发的难度低,推动了深度神经网络大模型落地应用的发展。
-
公开(公告)号:CN114820278A
公开(公告)日:2022-07-29
申请号:CN202210463699.X
申请日:2022-04-29
Applicant: 之江实验室
Abstract: 本发明属于人工智能下的深度学习领域,公开了一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法,所述系统包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块;本发明的一种用于分布式环境下多深度学习任务的异构GPU分配方法可以通过将不同计算能力的GPU分配给对应需求的任务,将模型层次复杂且批次数据量大的任务适配到性能最佳的GPU且显存足够存储的节点上运行,加快需要更长时间做深度学习训练的任务,从而明显提高异构环境下的多任务执行效率;而且当多深度学习任务并发执行,多深度学习能够整体更快地完成,可以节约程序员或用户等待结果的时间。
-
公开(公告)号:CN112418422B
公开(公告)日:2022-05-27
申请号:CN202011307776.X
申请日:2020-11-20
IPC: G06N3/08
Abstract: 本发明公开了一种基于人脑记忆机制的深度神经网络训练数据采样方法,包括如下步骤:S1,在初始训练周期,设置下一轮要训练的序列为整个训练集;S2,将训练序列中包含的数据根据批大小打包为多个批,放入神经网络进行训练,并获得样本的训练损失值;S3,根据损失值将样本序列划分为困难、中间、简单三种类型;S4,整个训练序列的样本都增加一个基本时钟,中间和简单的样本需要根据倒计时等待函数分别计算样本的额外增加的时钟数;S5,整个训练集的样本都减少一个时钟数,将时钟数为0的样本放入下一轮将要训练的序列之中;S6,重复步骤2‑5,直到神经网络收敛或者训练周期数结束。
-
公开(公告)号:CN112306697B
公开(公告)日:2021-04-27
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN112308215B
公开(公告)日:2021-03-30
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
公开(公告)号:CN112149816B
公开(公告)日:2021-02-12
申请号:CN202011340107.2
申请日:2020-11-25
Applicant: 之江实验室
Abstract: 本发明公开了一种支持深度神经网络推理加速的异构存算融合系统及方法,包括:主机处理器,用于控制和管理整个异构存算融合系统;非易失内存模块,与所述主机处理器相连,用于神经网络处理;3D堆叠内存模块,与所述主机处理器相连,用于神经网络处理;网络模块,与所述主机处理器相连,用于与外部主机连接;配置电路,与所述主机处理器相连,用于接收所述主机处理器的配置命令并控制电压发生器,也用于接收所述主机处理器的配置命令并配置3D堆叠内存模块;电压发生器,分别与所述非易失内存模块和配置电路相连,用于接收所述配置电路的控制命令,对所述非易失内存模块施加外部激励,调节其电导状态。
-
公开(公告)号:CN112308215A
公开(公告)日:2021-02-02
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
公开(公告)号:CN112232528A
公开(公告)日:2021-01-15
申请号:CN202011473442.X
申请日:2020-12-15
Applicant: 之江实验室
Abstract: 本发明公开了一种联邦学习模型训练方法、装置及联邦学习系统,边缘计算服务器和端设备接收云端联邦学习子系统形成的全局机器学习模型信息;一个边缘计算服务器与一个以上的端设备利用网络局部性的优势形成区域,端设备依靠本地数据并采用截断的方式完成模型本地训练,边缘计算服务器负责所辖区域内端设备的多轮更新并向云端联邦学习子系统发送更新后的模型信息;边缘计算服务器也采用截断的方式完成模型本地训练,云端联邦学习子系统负责多个边缘计算服务器的梯度更新;在训练到达收敛期,分别对边缘计算服务器所辖区域内端设备和云端联邦学习子系统负责的多个边缘计算服务器实施截断节点的补偿,形成全局机器学习模型信息。
-
公开(公告)号:CN111967590A
公开(公告)日:2020-11-20
申请号:CN202011142652.0
申请日:2020-10-23
Applicant: 之江实验室
Abstract: 本发明公开了面向推荐系统矩阵分解方法的异构多XPU机器学习系统,包括参数服务器和与其连接的一组XPU工作器,所述的参数服务器用于数据加载、数据分配,以及矩阵分解算法中参数分发、参数接收和参数更新,XPU工作器用于参数计算和局部更新,参数服务器包括DataManager模块,用于根据XPU工作器的性能计算并提供数据划分信息,XPU工作器包括异步SGD优化器。异构系统的数据采用一级分配,内部共享同一数据锁,当XPU规模变大时,锁开销加剧影响系统性能,利用XPU工作器的异步SGD优化器,使得XPU工作器之间相互无锁,XPU工作器内部独立进行数据分块和调度。
-
-
-
-
-
-
-
-