一种基于人脑记忆机制的深度神经网络训练数据采样方法

    公开(公告)号:CN112418422B

    公开(公告)日:2022-05-27

    申请号:CN202011307776.X

    申请日:2020-11-20

    Abstract: 本发明公开了一种基于人脑记忆机制的深度神经网络训练数据采样方法,包括如下步骤:S1,在初始训练周期,设置下一轮要训练的序列为整个训练集;S2,将训练序列中包含的数据根据批大小打包为多个批,放入神经网络进行训练,并获得样本的训练损失值;S3,根据损失值将样本序列划分为困难、中间、简单三种类型;S4,整个训练序列的样本都增加一个基本时钟,中间和简单的样本需要根据倒计时等待函数分别计算样本的额外增加的时钟数;S5,整个训练集的样本都减少一个时钟数,将时钟数为0的样本放入下一轮将要训练的序列之中;S6,重复步骤2‑5,直到神经网络收敛或者训练周期数结束。

    基于Tensor访问的深度学习内存管理方法及系统

    公开(公告)号:CN112306697B

    公开(公告)日:2021-04-27

    申请号:CN202011619848.4

    申请日:2020-12-31

    Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。

    支持深度神经网络推理加速的异构存算融合系统及方法

    公开(公告)号:CN112149816B

    公开(公告)日:2021-02-12

    申请号:CN202011340107.2

    申请日:2020-11-25

    Abstract: 本发明公开了一种支持深度神经网络推理加速的异构存算融合系统及方法,包括:主机处理器,用于控制和管理整个异构存算融合系统;非易失内存模块,与所述主机处理器相连,用于神经网络处理;3D堆叠内存模块,与所述主机处理器相连,用于神经网络处理;网络模块,与所述主机处理器相连,用于与外部主机连接;配置电路,与所述主机处理器相连,用于接收所述主机处理器的配置命令并控制电压发生器,也用于接收所述主机处理器的配置命令并配置3D堆叠内存模块;电压发生器,分别与所述非易失内存模块和配置电路相连,用于接收所述配置电路的控制命令,对所述非易失内存模块施加外部激励,调节其电导状态。

    一种联邦学习模型训练方法、装置及联邦学习系统

    公开(公告)号:CN112232528A

    公开(公告)日:2021-01-15

    申请号:CN202011473442.X

    申请日:2020-12-15

    Abstract: 本发明公开了一种联邦学习模型训练方法、装置及联邦学习系统,边缘计算服务器和端设备接收云端联邦学习子系统形成的全局机器学习模型信息;一个边缘计算服务器与一个以上的端设备利用网络局部性的优势形成区域,端设备依靠本地数据并采用截断的方式完成模型本地训练,边缘计算服务器负责所辖区域内端设备的多轮更新并向云端联邦学习子系统发送更新后的模型信息;边缘计算服务器也采用截断的方式完成模型本地训练,云端联邦学习子系统负责多个边缘计算服务器的梯度更新;在训练到达收敛期,分别对边缘计算服务器所辖区域内端设备和云端联邦学习子系统负责的多个边缘计算服务器实施截断节点的补偿,形成全局机器学习模型信息。

    面向推荐系统矩阵分解方法的异构多XPU机器学习系统

    公开(公告)号:CN111967590A

    公开(公告)日:2020-11-20

    申请号:CN202011142652.0

    申请日:2020-10-23

    Abstract: 本发明公开了面向推荐系统矩阵分解方法的异构多XPU机器学习系统,包括参数服务器和与其连接的一组XPU工作器,所述的参数服务器用于数据加载、数据分配,以及矩阵分解算法中参数分发、参数接收和参数更新,XPU工作器用于参数计算和局部更新,参数服务器包括DataManager模块,用于根据XPU工作器的性能计算并提供数据划分信息,XPU工作器包括异步SGD优化器。异构系统的数据采用一级分配,内部共享同一数据锁,当XPU规模变大时,锁开销加剧影响系统性能,利用XPU工作器的异步SGD优化器,使得XPU工作器之间相互无锁,XPU工作器内部独立进行数据分块和调度。

    一种自适应层级的图像切分识别方法、装置及系统

    公开(公告)号:CN111738236A

    公开(公告)日:2020-10-02

    申请号:CN202010817355.5

    申请日:2020-08-14

    Abstract: 本发明公开了一种自适应层级的图像切分识别方法、装置及系统,该方法包括:获取高清视频中某一帧的原始图像;对所述原始图像,进行图像切分,得到若干有像素重叠的图像切片;对子图像切片进行迭代切分并识别;最终对所有识别结果进行选择得到最终图像的识别结果。本发明解决了现有对高清图像物体识别存在的速度慢、小物体检出率低的问题,做到了高清图像中物体识别速度快、检出率高的效果。

    一种加速深度学习训练任务数据载入的方法

    公开(公告)号:CN113656333B

    公开(公告)日:2022-03-18

    申请号:CN202111221953.7

    申请日:2021-10-20

    Abstract: 本发明公开了一种加速深度学习训练任务数据载入的方法,该方法使用双随机序列方式,在每个训练周期开始时提前计算下一个周期的随机序列,并申请一块独立的内存提前缓存下一个周期初始阶段所需数据。根据当前周期的随机序列依次为神经网络准备数据的同时,可参照下一个周期的随机序列及时将下一个周期初始阶段所需数据依次从内存拷贝到缓存,使得下一个周期初始阶段所需的数据可全部从缓存获得。本发明不需修改现有深度学习的架构,实现简单,引入的计算开销小,缓存数据能全部命中且可被使用多次,从而减少从后端存储系统读取数据,并且训练周期数越多,此方法的加速效果越明显。

    一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113B

    公开(公告)日:2021-06-01

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

    一种可组装的分布式计算和存储系统及其构造方法

    公开(公告)号:CN112804297A

    公开(公告)日:2021-05-14

    申请号:CN202011599244.8

    申请日:2020-12-30

    Abstract: 本发明公开了一种可组装的分布式计算和存储系统及其构造方法,包括:一个以上域服务器,用于计算服务或存储服务;网络交换单元,负责将域服务器连接形成分布式计算和存储系统;域服务器包括:对象处理单元,采用多核构造处理器线程组,负责域服务器内网络连接,并通过高级语言编程提供管理控制和数据处理;计算单元,提供计算能力;内存单元,用于动态随机存储器;持久化内存单元,用于非易失内存;存储单元,提供持久化存储;多个计算单元、多个内存单元、多个非易失内存单元、多个存储单元,分别通过网络交换单元连接形成计算池、内存池、非易失内存池、存储池;一个或多个域服务器通过网络交换单元连接形成分布式计算和存储系统。

    一种数据快速读取方法、装置、电子设备及存储介质

    公开(公告)号:CN112597113A

    公开(公告)日:2021-04-02

    申请号:CN202110246172.7

    申请日:2021-03-05

    Abstract: 本发明公开了一种数据快速读取方法、装置、电子设备及存储介质,该方法包括:将数据集划分成若干份图片子集,对每个图片子集进行归一化处理,并分别聚合为一个文件;给数据集中的每个图片分配一个请求编号;通过继承深度学习平台的数据集抽象类,根据所述请求编号分别哈希计算出每个图片所在的文件地址和文件内所述的偏移信息,从而获得每张图片到该图片所属文件的映射;根据所述映射,快速读取数据集中的所有图片。将每个所述图片子集聚合为一个文件,减少了海量小样本元数据管理的开销,优化了数据集的组织形式,极大地提升了图片的读取速度;图片读取时通过多级地址映射,取代了原本低效的海量图片中随机查找的过程,极大地提升了读取速率。

Patent Agency Ranking