一种面向神经网络计算的内存优化方法和装置

    公开(公告)号:CN115269205A

    公开(公告)日:2022-11-01

    申请号:CN202211177786.5

    申请日:2022-09-27

    Inventor: 王宏升 陈光

    Abstract: 本发明公开了一种面向神经网络计算的内存优化方法和装置,包括以下步骤:步骤S1:将计算图重构为拓扑结构计算图;步骤S2:构建关于张量变量的生命周期区间;步骤S3:构建关于生命周期区间的扫描线;步骤S4:将张量变量分配到空闲寄存器;步骤S5:分配给超出寄存器需求数量的张量变量;步骤S6:将已过期的所述生命周期区间所分配的寄存器分配给超出寄存器需求数量的张量变量;步骤S7:将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。本发明优化用于神经网络计算的计算图的数据流的内存,减少数据流中张量变量所需的内存开销,降低大模型对于硬件内存资源的要求。

    一种用于计算图编译的优化方法及装置

    公开(公告)号:CN115268936A

    公开(公告)日:2022-11-01

    申请号:CN202211177796.9

    申请日:2022-09-27

    Abstract: 本发明公开了一种用于计算图编译的优化方法及装置,包括以下步骤:步骤S1:将计算图转换为中间表示;步骤S2:分析依赖关系;步骤S3:构建工作栈;步骤S4:初始化为未激活状态;步骤S5:弹出栈顶节点元素,并更新当前轮迭代输入节点集合;步骤S6:将依赖所述步骤S5的栈顶节点的元素依次添加到栈顶位置,直到工作栈清空为止;步骤S7:采用位向量实现达到不动点状态的中间表示;步骤S8:为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器。本发明提供了一种解析所述中间表示节点动态地执行至不动点状态的方法,并且优化了为所述中间表示不动点状态下各节点所包含的张量变量分配空闲寄存器的实现方法,提升计算图在运行时的执行效率。

    一种用于神经网络计算的图优化方法和装置

    公开(公告)号:CN114936099B

    公开(公告)日:2022-09-30

    申请号:CN202210874564.2

    申请日:2022-07-25

    Inventor: 王宏升 陈光

    Abstract: 本发明公开了一种用于神经网络计算的图优化方法和装置,包括以下步骤:步骤S1:转换计算图;步骤S2:分配寄存器;步骤S3:定义关于重定义变量的路由选择器;步骤S4:求解关于重定义变量的路由选择器;步骤S5:定义关于重定义变量的路由选择器插入节点的准则;步骤S6:分析关于重定义变量节点的支配边集合;步骤S7:插入关于重定义变量的路由选择器;步骤S8:重命名关于重定义变量。本发明解决了编译期计算图中包含重定义变量的节点流经多路计算流时所对应的关于重定义变量的正确定义的路由选择问题,减少数据流中张量变量所需的内存开销,降低了大模型对于硬件内存资源的要求,推动了深度神经网络模型落地应用的发展。

    基于概率的负载平衡方法及装置、电子设备、存储介质

    公开(公告)号:CN114079656A

    公开(公告)日:2022-02-22

    申请号:CN202210059029.1

    申请日:2022-01-19

    Inventor: 李勇 曾令仿 陈光

    Abstract: 本发明公开了一种基于概率的负载平衡方法及装置、电子设备、存储介质,包括:接收每个存储节点发送的负载信息;根据所述负载信息,计算每个存储节点的负载;根据所述负载,计算每个存储节点的负载服务能力;接收客户端发送的数据请求;根据所述负载服务能力,计算服务概率;基于所述服务概率,随机的选择一个存储节点服务所述数据请求,其中所述服务概率越大被选中的概率越高。本发明可以应用到各类分布式文件系统的中,解决负载信息收集的低网络开销和较好负载平衡效果之间难以兼顾的问题。

    深度学习数据集存取方法及系统、电子设备、存储介质

    公开(公告)号:CN113935476A

    公开(公告)日:2022-01-14

    申请号:CN202111542576.7

    申请日:2021-12-16

    Abstract: 本发明公开了一种深度学习数据集存取方法及系统、电子设备、存储介质,所述方法基于存储架构实现,存储架构包括内存层、非易失性内存层和原始数据存储层,方法包括:将原始数据存储层的最初的图片解码成RGB或灰度图,重定义图片大小,以统一的尺寸写入非易失性内存层,并根据RGB或灰度图在非易失性内存层中的地址空间生成索引,将索引写入非易失性内存层;记录每个RGB或灰度图的索引,根据索引,得到每个RGB或灰度图的访问顺序,在DNN模型的每个epoch开始时对索引进行更新;根据访问顺序,利用更新后的索引依次将非易失性内存层中的RGB或灰度图读入内存层中,供DNN模型进行训练。本发明能够显著提高数据DNN图片数据集的读吞吐,进而提升模型的整体训练速度。

    一种固态盘存储系统的选择性数据压缩方法及装置

    公开(公告)号:CN117666968B

    公开(公告)日:2024-06-28

    申请号:CN202311759362.4

    申请日:2023-12-20

    Abstract: 本发明公开了一种固态盘存储系统的选择性数据压缩方法及装置,该方法是在固态盘存储系统上设置压缩位图表和三个功能模块:负载监测模块、数据压缩模块和数据解压缩模块,由请求类型判断步骤、数据的压缩写入步骤和数据的解压缩读取步骤组成。根据系统的当前负载和CPU计算资源状态,该方法充分利用存储系统中数据的冗余特性和固态盘的闪存介质特性,通过利用动态的数据压缩技术减少冗余信息,减少写入数据量,以此缓解固态盘读写性能不对称的问题,同时提升固态盘的空间利用率和可靠性。

    神经网络训练方法、显存调度方法、系统、设备和产品

    公开(公告)号:CN117892769B

    公开(公告)日:2024-06-11

    申请号:CN202410296736.1

    申请日:2024-03-15

    Abstract: 本申请涉及一种神经网络训练方法、显存调度方法、系统、设备和产品,通过对第一神经网络在训练过程中的多个张量执行显存调度,记录各张量在显存调度期间对应的显存信息和重用距离,显存信息包括对应于各张量的显存占用量、显存利用率以及适用于各张量的显存释放模式;以各张量的显存占用量、显存利用率和重用距离作为样本数据的输入,以适用于各张量的显存释放模式作为样本数据的输出,构建训练数据集;根据训练数据集训练初始的第二神经网络,得到经训练的第二神经网络,经训练的第二神经网络可作为线上显存优化的决策引擎,使得决策引擎能够适用于多GPU训练场景的显存调度。

    一种基于强化学习实现矩形宏单元的布图规划方法和系统

    公开(公告)号:CN116562218B

    公开(公告)日:2024-02-20

    申请号:CN202310493297.9

    申请日:2023-05-05

    Abstract: 一种基于强化学习实现矩形宏单元的布图规划方法,包含:根据公开数据集ispd2005整理宏单元和标准单元信息;用GCN对宏单元编码;将宏单元按照面积从大到小排序,将排好顺序的宏单元信息和宏单元编码作为双线性模型的输入,提取环境特征;根据宏单元大小计算掩模矩阵确定当前宏单元可摆放的范围;将环境特征作为强化学习策略网络的输入,策略网络输出宏单元摆放位置的概率;根据策略网络的输出和掩模矩阵确定宏单元的位置;奖励函数设为总线长、拥塞程度和布局密度的加权和。还包括一种基于强化学习实现矩形宏单元的布图规划系统。本发明在满足宏单元互相不相交的约束条件下,为用强化学习求解不同大小的矩形宏单元的布图规划问题提供了一种解决方案。

    一种图形处理器内存优化方法、装置、介质及设备

    公开(公告)号:CN117522669A

    公开(公告)日:2024-02-06

    申请号:CN202410025766.9

    申请日:2024-01-08

    Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。

Patent Agency Ranking