-
公开(公告)号:CN112379849A
公开(公告)日:2021-02-19
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112306697A
公开(公告)日:2021-02-02
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN118674004A
公开(公告)日:2024-09-20
申请号:CN202410877177.3
申请日:2024-07-02
Applicant: 浙江大学
Abstract: 本发明提供了一种面向DNN模型的模式感知的自动化SDK存算一体映射方法,本发明面向基于ReRAM的存算一体架构,分析模型输入特征图中不同位置计算次数的差异与ReRAM映射间的关系,提出模式感知的分区映射思想;使用强化学习算法自动化实现分区内的进一步优化,在不影响模型精度的情况下,能够有效提升crossbar利用率,降低系统计算延迟和能耗。
-
公开(公告)号:CN118627563A
公开(公告)日:2024-09-10
申请号:CN202410762044.1
申请日:2024-06-13
Applicant: 浙江大学
Abstract: 本发明公开了一种基于资源副本的图卷积神经网络存算一体系统。包括多个ReRAM瓦片、一个128kb全局缓冲区、由SRAM组成的权重计算模块、一个激活模块、一组加法器、一个用于降低片外访存延迟中央控制器、时间预测器和资源分配器。本发明为GCN训练设计了一个基于ReRAM的存算一体系统,采用一个基于副本的执行时间预测器和基于大顶堆的资源分配方案,实现了资源的自适应分配以尽可能缩短流水线训练的时间,最终获得更大的加速比和更优的节能效果。
-
公开(公告)号:CN112306697B
公开(公告)日:2021-04-27
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN112308215B
公开(公告)日:2021-03-30
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
公开(公告)号:CN112308215A
公开(公告)日:2021-02-02
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
-
-
-
-
-