-
公开(公告)号:CN111783976B
公开(公告)日:2023-04-21
申请号:CN202010317078.1
申请日:2020-04-21
IPC: G06N3/084 , G06N3/08 , G06N3/0985 , G06N3/0464
Abstract: 本发明涉及一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中,选择部分通道的输入激活值保存在内存中;在神经网络训练的反向传播过程中,利用保存的部分通道的输入激活值计算梯度,以更新神经网络的权重参数。通过窗口选择所述部分通道,通过超参数网络稠密度决定窗口大小,即窗口内包含的通道数占总通道数的比例。通过窗口选择所述部分通道的步骤包括:确定窗口的起始位置;根据网络稠密度确定窗口大小。本发明对神经网络训练时需要保存的激活值进行存储优化,能够大幅降低内存成本,提高训练深度更深、规模更大的神经网络的能力,同时也可以在内存受限的设备上在线训练网络。
-
公开(公告)号:CN111783976A
公开(公告)日:2020-10-16
申请号:CN202010317078.1
申请日:2020-04-21
Abstract: 本发明涉及一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中,选择部分通道的输入激活值保存在内存中;在神经网络训练的反向传播过程中,利用保存的部分通道的输入激活值计算梯度,以更新神经网络的权重参数。通过窗口选择所述部分通道,通过超参数网络稠密度决定窗口大小,即窗口内包含的通道数占总通道数的比例。通过窗口选择所述部分通道的步骤包括:确定窗口的起始位置;根据网络稠密度确定窗口大小。本发明对神经网络训练时需要保存的激活值进行存储优化,能够大幅降低内存成本,提高训练深度更深、规模更大的神经网络的能力,同时也可以在内存受限的设备上在线训练网络。
-
公开(公告)号:CN111783977B
公开(公告)日:2024-04-05
申请号:CN202010317520.0
申请日:2020-04-21
IPC: G06N3/084 , G06N3/0464
Abstract: 本发明涉及一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中将特定区域的输入激活值保存在内存中;在神经网络训练的反向传播过程中利用保存的特定区域的输入激活值计算梯度,以更新神经网络的权重参数。所述区域是在输入激活值的长度和宽度方向上划分的区域。通过分块步长和网络稠密度确定所述特定区域,首先根据分块步长对输入激活值划分区域,并确定区域起始位置,然后根据网络稠密度确定保留区域总数。本发明对神经网络训练时需要保存的激活值进行存储优化,能够大幅降低内存成本,提高训练深度更深、规模更大的神经网络的能力,同时也可以在内存受限的设备上在线训练网络。
-
公开(公告)号:CN111783977A
公开(公告)日:2020-10-16
申请号:CN202010317520.0
申请日:2020-04-21
Abstract: 本发明涉及一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中将特定区域的输入激活值保存在内存中;在神经网络训练的反向传播过程中利用保存的特定区域的输入激活值计算梯度,以更新神经网络的权重参数。所述区域是在输入激活值的长度和宽度方向上划分的区域。通过分块步长和网络稠密度确定所述特定区域,首先根据分块步长对输入激活值划分区域,并确定区域起始位置,然后根据网络稠密度确定保留区域总数。本发明对神经网络训练时需要保存的激活值进行存储优化,能够大幅降低内存成本,提高训练深度更深、规模更大的神经网络的能力,同时也可以在内存受限的设备上在线训练网络。
-
公开(公告)号:CN117874241B
公开(公告)日:2024-05-17
申请号:CN202410278591.2
申请日:2024-03-12
Applicant: 北京大学
Abstract: 本发明公布了一种基于DRAM‑PIM查表式神经网络推理与调优的文本分类方法及系统,包括宿主处理器、控制器和存内计算PIM模块;基于DRAM存内计算架构,通过设计查表式神经网络LUT‑NN算法的算子,实现算法的高效推理,进一步通过自动调优算法获得查表式神经网络在不同场景部署时的最优数据流参数,实现推理参数的高效调优;再通过神经网络推理得到文本分类结果。采用本发明的技术方案,能够发挥硬件平台执行基于LUT‑NN的文本分类任务的能力,提升对不同文本分类场景的兼容性。
-
公开(公告)号:CN111966497B
公开(公告)日:2023-02-24
申请号:CN202010861083.9
申请日:2020-08-25
Applicant: 北京大学
IPC: G06F9/50
Abstract: 本发明公布了一种广域网环境中分布式系统的计算任务分配方法,系统包括多个数据源节点、数据汇节点、数据源节点与数据汇节点之间的中间节点;系统中由数据汇节点发起新任务;数据流由数据源节点产生,在中间节点完成计算,最后流入到数据汇节点;通过对相邻节点的计算任务进行调整与分配,使得数据流中各个数据条目从生成到完成使用的计算时间尽可能接近,动态分配各个节点所承载的计算量。采用本发明技术方案,无需引入中心化调度节点,而通过相邻计算节点之间的任务交换,自动调节系统中各个节点的任务量分配,可避免因少数调度节点故障而导致的系统整体不可用问题,同时提高广域网环境的分布式计算系统的可扩展性。
-
公开(公告)号:CN113568845A
公开(公告)日:2021-10-29
申请号:CN202110862708.8
申请日:2021-07-29
Applicant: 北京大学
Abstract: 本发明公布了一种基于强化学习的内存地址映射方法,建立基于地址映射矩阵BIM交换的强化学习神经网络模型,并使用策略梯度的方法有效地训练模型,通过强化学习对不同的程序自动找到内存地址映射。采用本发明提供方法,可以对不同的程序自动找到最合适的映射方法,能够克服现有方法不能根据不同的程序自动做出调整,且需要依靠专业人士的经验来设计,不能达到自动的效果的不足。
-
公开(公告)号:CN105426316B
公开(公告)日:2018-02-13
申请号:CN201510782745.2
申请日:2015-11-09
Applicant: 北京大学
Abstract: 本发明公开了一种基于配额控制温度的赛道存储芯片及其控制方法。本发明的赛道存储芯片包括:衬底、赛道存储条、填充层和散热装置;本发明在一个程序运行区间内设置移动配额,从而从时间上进行热点分散;并且,将一个数据块存储在互不相邻的多个赛道存储条上,从空间上进行热点分散。本发明提供了一套赛道存储器因为移动操作而导致温度上升的控制方法;综合考虑了时间、空间上的热点分散的方法,可以尽最大可能的减小芯片的温度升高;模拟显示,本发明的方法导致的性能损失平均只有5%。
-
公开(公告)号:CN105426316A
公开(公告)日:2016-03-23
申请号:CN201510782745.2
申请日:2015-11-09
Applicant: 北京大学
CPC classification number: G06F12/0246 , G06F2212/7201 , G06F2212/7209 , G11B33/1406
Abstract: 本发明公开了一种基于配额控制温度的赛道存储芯片及其控制方法。本发明的赛道存储芯片包括:衬底、赛道存储条、填充层和散热装置;本发明在一个程序运行区间内设置移动配额,从而从时间上进行热点分散;并且,将一个数据块存储在互不相邻的多个赛道存储条上,从空间上进行热点分散。本发明提供了一套赛道存储器因为移动操作而导致温度上升的控制方法;综合考虑了时间、空间上的热点分散的方法,可以尽最大可能的减小芯片的温度升高;模拟显示,本发明的方法导致的性能损失平均只有5%。
-
公开(公告)号:CN117574976A
公开(公告)日:2024-02-20
申请号:CN202410058901.X
申请日:2024-01-16
Applicant: 北京大学
IPC: G06N3/063 , G06N3/042 , G06N5/04 , G06N3/0455 , G06N3/048 , G06N3/08 , G06F16/35 , G06F16/33 , G06F18/2433
Abstract: 本发明公布了一种大语言模型软硬件协同量化加速计算方法及系统,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速,保证了数据编码的灵活性和规整性,同时易于在系统和硬件上进行实现和部署;可重构加速器系统包括:运算模块、累加模块、解码模块、控制模块、片上缓存和主存。采用本发明,既能够有效保持量化后模型的精度,又能实现硬件高效的推理计算。
-
-
-
-
-
-
-
-
-