-
公开(公告)号:CN114462590A
公开(公告)日:2022-05-10
申请号:CN202111520870.8
申请日:2021-12-13
IPC: G06N3/08 , G06F16/2455
Abstract: 本发明提供了一种重要性感知的深度学习数据缓存管理方法和系统,本发明将缓存分为两个区域分别存储划分的重要样本和不重要样本,同时设置重要性感知的缓存管理模块和动态打包模块分别应答数据请求并对缓存模块的两个缓存区域进行缓存管理,重要性感知的缓存管理模块把越重要的样本优先缓存在内存中,当缓存满的时候,重要性低的样本先逐出,可以提高缓存命中率。对不重要样本使用异步线程使用异步线程进行打包和缓存,同时当不重要的样本缓存缺失时,使用其他的不重要的样本进行替换。从而保证训练样本的多样性且不引入额外开销。与现有技术相比,本发明对模型训练的精度影响可以忽略不计,并且使DNN训练速度是原来的3倍。
-
公开(公告)号:CN112598129A
公开(公告)日:2021-04-02
申请号:CN202110236303.3
申请日:2021-03-03
IPC: G06N3/08
Abstract: 本发明提出了一种基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架,该剪枝和映射框架包括DDPG代理器和ReRAM神经网络加速器;所述DDPG代理器由行为决策模块Actor和评判模块Critic组成,其中,行为决策模块Actor用于对神经网络做出剪枝决策;ReRAM神经网络加速器用于映射行为决策模块Actor产生的剪枝决策下形成的模型,并将此剪枝决策下的模型映射的性能参数作为信号反馈给评判模块Critic;所述性能参数包括模拟器的能耗、延迟和模型准确率;评判模块Critic根据反馈的性能参数更新奖励函数值,并指导行为决策模块Actor下一阶段的剪枝决策;本发明方法利用强化学习DDPG代理来做出与硬件和用户需求最匹配、最高效的剪枝方案,在保证准确率的同时,提升了硬件上延迟性能和能耗性能。
-
公开(公告)号:CN114462590B
公开(公告)日:2024-05-10
申请号:CN202111520870.8
申请日:2021-12-13
IPC: G06N3/08 , G06F16/2455
Abstract: 本发明提供了一种重要性感知的深度学习数据缓存管理方法和系统,本发明将缓存分为两个区域分别存储划分的重要样本和不重要样本,同时设置重要性感知的缓存管理模块和动态打包模块分别应答数据请求并对缓存模块的两个缓存区域进行缓存管理,重要性感知的缓存管理模块把越重要的样本优先缓存在内存中,当缓存满的时候,重要性低的样本先逐出,可以提高缓存命中率。对不重要样本使用异步线程使用异步线程进行打包和缓存,同时当不重要的样本缓存缺失时,使用其他的不重要的样本进行替换。从而保证训练样本的多样性且不引入额外开销。与现有技术相比,本发明对模型训练的精度影响可以忽略不计,并且使DNN训练速度是原来的3倍。
-
公开(公告)号:CN114943338A
公开(公告)日:2022-08-26
申请号:CN202210266429.X
申请日:2022-03-17
Abstract: 本发明公开了一种基于访问模式和熵感知的ReRAM推荐系统加速器映射方法及系统,本发明在推荐系统映射之前,对推荐系统负载的数据集进行访问模式的采样分析,充分利用嵌入表的访问模式来聚类嵌入向量,利用嵌入表的熵值来对映射在ReRAM加速器上的嵌入表进行混合量化,使得ReRAM加速器在有限的交叉阵列资源上执行推荐系统模型,解决内存瓶颈问题,从而加速整个推理过程并降低推理能耗。
-
公开(公告)号:CN112379849B
公开(公告)日:2021-04-09
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112379849A
公开(公告)日:2021-02-19
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112306697A
公开(公告)日:2021-02-02
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN112306697B
公开(公告)日:2021-04-27
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN112308215B
公开(公告)日:2021-03-30
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
公开(公告)号:CN112308215A
公开(公告)日:2021-02-02
申请号:CN202011633404.6
申请日:2020-12-31
Abstract: 本发明提出了一种基于神经网络中数据稀疏特性的智能训练加速方法,该方法通过对模型进行预训练收集相关数据信息与性能模型信息,并利用深度学习网络的稀疏特性结合压缩与解压缩算法动态减少GPU与CPU之间所需传输的数据量,从而提升系统整体性能。本发明还提出了一种基于神经网络中数据稀疏特性的智能训练加速系统,该系统包括:Profile模块、GPU性能模型模块、决策器以及深度学习训练模块;利用本发明系统进行神经网络训练,能有效提升训练速度和系统整体性能。
-
-
-
-
-
-
-
-
-