一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113B

    公开(公告)日:2021-06-01

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

    一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113A

    公开(公告)日:2021-04-02

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

    一种基于混合存储的存内计算的方法与装置

    公开(公告)号:CN112015673A

    公开(公告)日:2020-12-01

    申请号:CN202011137494.X

    申请日:2020-10-22

    Abstract: 本发明涉及计算机内存计算领域,具体涉及一种基于混合存储的存内计算方法与装置,该方法包括:首先通过混合存储区将数据进行混合存储,然后利用数据转存区通过字线驱动器和控制器对某一指定行的数据进行移位操作,最后基于混合存储和移位操作进行数据的乘法计算。本发明结合非易失存储与内存计算,一方面计算数据以纳秒级的速度从非易失器件中获得,特别是对于深度神经网络推理这种场景,可将模型参数事先存放于非易失存储区,计算时能减少了数据访问的时间,提高了系统性能;另一方面通过改进电路操作流程,减少了不必要的数据搬移时间,使得移位时间也能缩短至纳秒级别,提升了对于乘法计算这种有大量移位操作的计算效率,提高了系统性能。

    一种加速分布式机器学习梯度汇聚的方法和装置

    公开(公告)号:CN112862111B

    公开(公告)日:2021-08-24

    申请号:CN202110450988.1

    申请日:2021-04-26

    Abstract: 本发明涉及分布式计算系统领域,具体涉及一种加速分布式机器学习梯度汇聚的方法和装置,该装置包括:包括梯度汇聚器和与梯度汇聚器连接的工作节点,所述工作节点用于提供梯度数据至梯度汇聚器和接收梯度汇聚器的返还数据;所述梯度汇聚器,包括:输入接口和输入队列模块、接收仲裁模块、解析查找模块、输出队列模块、聚合模块、存储器、输出接口模块和配置接口模块,其中的聚合模块包括:控制模块、解析模块、梯度数据块信息表、梯度数据块缓存器、计算模块和网络组包输出模块。本发明支持大型机器学习模型的训练,存储器可以存储大量梯度数据,同时所需要的缓存空间可以很小,降低了系统缓存的要求,提高了系统整体性能。

    一种基于混合存储的存内计算的方法与装置

    公开(公告)号:CN112015673B

    公开(公告)日:2021-03-16

    申请号:CN202011137494.X

    申请日:2020-10-22

    Abstract: 本发明涉及计算机内存计算领域,具体涉及一种基于混合存储的存内计算方法与装置,该方法包括:首先通过混合存储区将数据进行混合存储,然后利用数据转存区通过字线驱动器和控制器对某一指定行的数据进行移位操作,最后基于混合存储和移位操作进行数据的乘法计算。本发明结合非易失存储与内存计算,一方面计算数据以纳秒级的速度从非易失器件中获得,特别是对于深度神经网络推理这种场景,可将模型参数事先存放于非易失存储区,计算时能减少了数据访问的时间,提高了系统性能;另一方面通过改进电路操作流程,减少了不必要的数据搬移时间,使得移位时间也能缩短至纳秒级别,提升了对于乘法计算这种有大量移位操作的计算效率,提高了系统性能。

    一种加速分布式机器学习梯度汇聚的方法和装置

    公开(公告)号:CN112862111A

    公开(公告)日:2021-05-28

    申请号:CN202110450988.1

    申请日:2021-04-26

    Abstract: 本发明涉及分布式计算系统领域,具体涉及一种加速分布式机器学习梯度汇聚的方法和装置,该装置包括:包括梯度汇聚器和与梯度汇聚器连接的工作节点,所述工作节点用于提供梯度数据至梯度汇聚器和接收梯度汇聚器的返还数据;所述梯度汇聚器,包括:输入接口和输入队列模块、接收仲裁模块、解析查找模块、输出队列模块、聚合模块、存储器、输出接口模块和配置接口模块,其中的聚合模块包括:控制模块、解析模块、梯度数据块信息表、梯度数据块缓存器、计算模块和网络组包输出模块。本发明支持大型机器学习模型的训练,存储器可以存储大量梯度数据,同时所需要的缓存空间可以很小,降低了系统缓存的要求,提高了系统整体性能。

    基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架

    公开(公告)号:CN112598129A

    公开(公告)日:2021-04-02

    申请号:CN202110236303.3

    申请日:2021-03-03

    Abstract: 本发明提出了一种基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架,该剪枝和映射框架包括DDPG代理器和ReRAM神经网络加速器;所述DDPG代理器由行为决策模块Actor和评判模块Critic组成,其中,行为决策模块Actor用于对神经网络做出剪枝决策;ReRAM神经网络加速器用于映射行为决策模块Actor产生的剪枝决策下形成的模型,并将此剪枝决策下的模型映射的性能参数作为信号反馈给评判模块Critic;所述性能参数包括模拟器的能耗、延迟和模型准确率;评判模块Critic根据反馈的性能参数更新奖励函数值,并指导行为决策模块Actor下一阶段的剪枝决策;本发明方法利用强化学习DDPG代理来做出与硬件和用户需求最匹配、最高效的剪枝方案,在保证准确率的同时,提升了硬件上延迟性能和能耗性能。

    基于序列可预测的并行深度学习训练数据输入方法和系统

    公开(公告)号:CN112379849B

    公开(公告)日:2021-04-09

    申请号:CN202110062697.5

    申请日:2021-01-18

    Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。

    基于序列可预测的并行深度学习训练数据输入方法和系统

    公开(公告)号:CN112379849A

    公开(公告)日:2021-02-19

    申请号:CN202110062697.5

    申请日:2021-01-18

    Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。

    基于深度强化学习的多芯粒芯片算子放置策略生成方法

    公开(公告)号:CN115828831B

    公开(公告)日:2023-06-09

    申请号:CN202310110451.X

    申请日:2023-02-14

    Abstract: 本发明公开了一种基于深度强化学习的多芯粒芯片算子放置策略生成方法,包括:获取算子计算图和多芯粒芯片尺寸信息;根据多芯粒芯片尺寸信息生成可选的若干种目标放置芯粒网格尺寸;建立多芯粒芯片算子放置深度学习强化模型,其中多芯粒芯片算子放置深度学习强化模型包括算子运行环境模块和深度Q网络模块,算子运行模块用于根据当前环境网络和输入的动作,计算奖励值,并将环境变换到下一个状态,将奖励值和下一个状态传回深度Q网络模块,深度Q网络模块用于根据当前状态从可选的动作空间中选择价值最高的动作;基于算子运行环境模块对深度Q网络模块进行训练;利用训练好的深度强化学习模型对算子计算图在多芯粒芯片上的运行给出算子放置策略。

Patent Agency Ranking