-
公开(公告)号:CN113656333A
公开(公告)日:2021-11-16
申请号:CN202111221953.7
申请日:2021-10-20
Applicant: 之江实验室
IPC: G06F12/0893 , G06N3/08
Abstract: 本发明公开了一种加速深度学习训练任务数据载入的方法,该方法使用双随机序列方式,在每个训练周期开始时提前计算下一个周期的随机序列,并申请一块独立的内存提前缓存下一个周期初始阶段所需数据。根据当前周期的随机序列依次为神经网络准备数据的同时,可参照下一个周期的随机序列及时将下一个周期初始阶段所需数据依次从内存拷贝到缓存,使得下一个周期初始阶段所需的数据可全部从缓存获得。本发明不需修改现有深度学习的架构,实现简单,引入的计算开销小,缓存数据能全部命中且可被使用多次,从而减少从后端存储系统读取数据,并且训练周期数越多,此方法的加速效果越明显。
-
公开(公告)号:CN113031966B
公开(公告)日:2021-09-21
申请号:CN202110551554.0
申请日:2021-05-20
Applicant: 之江实验室
Abstract: 本发明公开了一种智能选择编译加速库的深度学习编译优化方法,目的是通过在深度学习编译器中加入编译加速库,结合深度学习编译器与编译加速库双方各自的优点,进一步提高深度神经网络的推理速度。该方法首先在深度学习编译器中加入各种算子针对编译加速库的翻译方法,将各种算子自动转换为编译加速库可以识别的形式。其次提出一种在深度学习编译器中调用编译加速库的方法,实现通过编译加速库执行各种算子。然后在深度学习编译器算子优化阶段将优化效果与编译加速库进行比较,进行最优方案选择。最后提出一种深度学习编译器中结合编译加速库的代码生成方法,产生优化后的可执行代码,实现对深度神经网络的进一步优化。
-
公开(公告)号:CN112561038A
公开(公告)日:2021-03-26
申请号:CN202011522568.1
申请日:2020-12-21
Applicant: 之江实验室
IPC: G06N3/04 , G06N3/063 , G06N3/08 , G06F40/211
Abstract: 本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序,利用有序的数据样本生成高质量的批数据,从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量,同时最大程度降低无效的占位文字数量,降低无效数据对GPU计算资源的占用,从而大大提高训练效率,降低训练时间。
-
公开(公告)号:CN112306697A
公开(公告)日:2021-02-02
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN112804297B
公开(公告)日:2022-08-19
申请号:CN202011599244.8
申请日:2020-12-30
Applicant: 之江实验室
IPC: H04L67/1097 , H04L67/1074
Abstract: 本发明公开了一种可组装的分布式计算和存储系统及其构造方法,包括:一个以上域服务器,用于计算服务或存储服务;网络交换单元,负责将域服务器连接形成分布式计算和存储系统;域服务器包括:对象处理单元,采用多核构造处理器线程组,负责域服务器内网络连接,并通过高级语言编程提供管理控制和数据处理;计算单元,提供计算能力;内存单元,用于动态随机存储器;持久化内存单元,用于非易失内存;存储单元,提供持久化存储;多个计算单元、多个内存单元、多个非易失内存单元、多个存储单元,分别通过网络交换单元连接形成计算池、内存池、非易失内存池、存储池;一个或多个域服务器通过网络交换单元连接形成分布式计算和存储系统。
-
公开(公告)号:CN113031966A
公开(公告)日:2021-06-25
申请号:CN202110551554.0
申请日:2021-05-20
Applicant: 之江实验室
Abstract: 本发明公开了一种智能选择编译加速库的深度学习编译优化方法,目的是通过在深度学习编译器中加入编译加速库,结合深度学习编译器与编译加速库双方各自的优点,进一步提高深度神经网络的推理速度。该方法首先在深度学习编译器中加入各种算子针对编译加速库的翻译方法,将各种算子自动转换为编译加速库可以识别的形式。其次提出一种在深度学习编译器中调用编译加速库的方法,实现通过编译加速库执行各种算子。然后在深度学习编译器算子优化阶段将优化效果与编译加速库进行比较,进行最优方案选择。最后提出一种深度学习编译器中结合编译加速库的代码生成方法,产生优化后的可执行代码,实现对深度神经网络的进一步优化。
-
公开(公告)号:CN112862111A
公开(公告)日:2021-05-28
申请号:CN202110450988.1
申请日:2021-04-26
IPC: G06N20/00
Abstract: 本发明涉及分布式计算系统领域,具体涉及一种加速分布式机器学习梯度汇聚的方法和装置,该装置包括:包括梯度汇聚器和与梯度汇聚器连接的工作节点,所述工作节点用于提供梯度数据至梯度汇聚器和接收梯度汇聚器的返还数据;所述梯度汇聚器,包括:输入接口和输入队列模块、接收仲裁模块、解析查找模块、输出队列模块、聚合模块、存储器、输出接口模块和配置接口模块,其中的聚合模块包括:控制模块、解析模块、梯度数据块信息表、梯度数据块缓存器、计算模块和网络组包输出模块。本发明支持大型机器学习模型的训练,存储器可以存储大量梯度数据,同时所需要的缓存空间可以很小,降低了系统缓存的要求,提高了系统整体性能。
-
公开(公告)号:CN112598129A
公开(公告)日:2021-04-02
申请号:CN202110236303.3
申请日:2021-03-03
IPC: G06N3/08
Abstract: 本发明提出了一种基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架,该剪枝和映射框架包括DDPG代理器和ReRAM神经网络加速器;所述DDPG代理器由行为决策模块Actor和评判模块Critic组成,其中,行为决策模块Actor用于对神经网络做出剪枝决策;ReRAM神经网络加速器用于映射行为决策模块Actor产生的剪枝决策下形成的模型,并将此剪枝决策下的模型映射的性能参数作为信号反馈给评判模块Critic;所述性能参数包括模拟器的能耗、延迟和模型准确率;评判模块Critic根据反馈的性能参数更新奖励函数值,并指导行为决策模块Actor下一阶段的剪枝决策;本发明方法利用强化学习DDPG代理来做出与硬件和用户需求最匹配、最高效的剪枝方案,在保证准确率的同时,提升了硬件上延迟性能和能耗性能。
-
公开(公告)号:CN111459552B
公开(公告)日:2020-10-13
申请号:CN202010545142.1
申请日:2020-06-16
Applicant: 之江实验室
Abstract: 本发明公开了一种并行化存内计算的方法及装置,该方法利用现有DRAM内存存储电路的充放电特性实现了并行化的加法计算,并且通过优化数据存储及计算流程,进一步提高了数据并行计算的效率。本发明使得数据存储与计算都可以在DRAM中实现,可大大地缓解内存墙问题,同时不需要依赖新型非易失存储器件,可降低内存计算的复杂度和成本。
-
公开(公告)号:CN111459552A
公开(公告)日:2020-07-28
申请号:CN202010545142.1
申请日:2020-06-16
Applicant: 之江实验室
Abstract: 本发明公开了一种并行化存内计算的方法及装置,该方法利用现有DRAM内存存储电路的充放电特性实现了并行化的加法计算,并且通过优化数据存储及计算流程,进一步提高了数据并行计算的效率。本发明使得数据存储与计算都可以在DRAM中实现,可大大地缓解内存墙问题,同时不需要依赖新型非易失存储器件,可降低内存计算的复杂度和成本。
-
-
-
-
-
-
-
-
-