基于posit数据格式的浮点数乘法运算方法及装置

    公开(公告)号:CN111367497B

    公开(公告)日:2023-03-14

    申请号:CN202010138192.8

    申请日:2020-03-03

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于posit数据格式的浮点数乘法运算方法及装置。所述方法包括:获取第一浮点数和第二浮点数之后,分别对第一浮点数和第二浮点数进行分析,根据分析后得到的值,确定目标浮点数。采用posit数据格式进行乘法运算,则可以在0附近保证精度的同时,又可以很大程度的减少数据位宽,从而减少神经网络的训练时间,也降低了对于存储,位宽等资源的需求。

    基于posit数据格式的浮点数乘法运算电路

    公开(公告)号:CN111290732B

    公开(公告)日:2023-03-14

    申请号:CN202010138191.3

    申请日:2020-03-03

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于posit数据格式的浮点数的乘法运算电路。该电路包括数据输入单元101、第一解码器102、第二解码器103、乘法器104、MSB单元105、加法器106、编码器107和多路选择器108,通过电路中各元件的协同,实现基于posit数据格式的浮点数的乘法运算。本申请实施例中,采用posit数据格式进行乘法运算,则可以在0附近保证精度的同时,又可以很大程度的减少数据位宽,从而减少神经网络的训练时间,也降低了对于存储,位宽等资源的需求。

    基于卷积神经网络的块稀疏方法、装置及处理单元

    公开(公告)号:CN115186802A

    公开(公告)日:2022-10-14

    申请号:CN202210844507.X

    申请日:2022-07-18

    Applicant: 南京大学

    Abstract: 本申请涉及数据处理技术领域,提供一种基于卷积神经网络的块稀疏方法、装置及处理单元,所述基于卷积神经网络的块稀疏方法,通过将维度为N×C×K×K的原始权重,转换为K2个C×K的重排权重,然后根据预设维度,将重排权重分割为多个数据块,最后根据预先设置的数据稀疏度,剪去所述多个数据块内冗余的非零值。对于数据块而言,剪去的是对数据块影响较小的数据,这可以减少稀疏对于训练精度的影响,因此可以达到较高的稀疏度,同时,在硬件设计时,解决传统训练加速器在处理稀疏张量时,存在的不同处理单元之间运算任务不平衡的问题,且在前向传播和反向传播过程中,避免造成权重数据在存储上的读写冲突。

    一种基于硬件平台的softmax函数计算方法

    公开(公告)号:CN108021537B

    公开(公告)日:2022-09-16

    申请号:CN201810016954.X

    申请日:2018-01-05

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于各种硬件平台(CPLD、FPGA、专用芯片等)的softmax函数计算方法。softmax函数广泛应用于深度学习的多分类任务及注意力模型等,其中涉及到的e指数及除法计算需要消耗较大的硬件资源。设计方法通过对函数进行简单变换,将其中的e指数计算简化为一次常数乘法、一个输入范围固定的2的指数次运算、一次移位运算;将n次除法运算的简化为一次“最高位1检测运算”,一次输入范围固定的倒数运算,一次移位运算及n次乘法运算。其中2指数及倒数运算以特殊设计的查找表实现,使得更小的存储空间可实现同样精度。将本发明用在深度学习注意力模型等中,可以在精度几乎不受损的前提下大大提高计算速度,减少计算资源的消耗。

    一种三维反卷积加速方法及三维反卷积硬件加速架构

    公开(公告)号:CN114742215A

    公开(公告)日:2022-07-12

    申请号:CN202210393362.6

    申请日:2022-04-14

    Applicant: 南京大学

    Abstract: 本申请提供一种三维反卷积加速方法及三维反卷积硬件加速架构。所述方法包括:利用候选反卷积核的尺寸、预设的变换强度和反卷积步长预先确定候选输入块的尺寸、待运算数据块的尺寸以及输出数据块的尺寸后,分别利用对应的二维预设前处理矩阵和前处理转置矩阵对候选输入块和候选反卷积核进行变换,并将各自得到的前处理数据块进行逐元素相乘,得到待运算数据块,再利用二维预设后处理矩阵和后处理转置矩阵对待运算数据块进行变换,最终得到候选输入块所对应的输出数据块。整个方法利用反卷积计算前后数据之间的关联性,将常规三维反卷积的乘法累加操作转化为前后处理和逐元素乘法,可以减少乘法次数,降低计算复杂度,从而极大地提高了计算效率。

    反卷积计算的方法、硬件加速器、设备及可读存储介质

    公开(公告)号:CN113918876A

    公开(公告)日:2022-01-11

    申请号:CN202010802119.6

    申请日:2020-08-11

    Applicant: 南京大学

    Abstract: 本申请公开了反卷积计算的方法、硬件加速器、设备及可读存储介质,该方法包括获取多个输入块,根据第一前置矩阵,对反卷积核中的数据进行变换,获取反卷积核矩阵,根据第二前置矩阵,分别对多个输入块中的数据进行变换,获取多个输入矩阵,然后分别将反卷积核矩阵与多个输入矩阵进行相乘,获取多个中间矩阵,将任一中间矩阵中所有层数据矩阵的数据按通道进行累加,获取多个累加矩阵。根据后置矩阵,分别对多个累加矩阵中的数据进行变换,获取多个输出块。将多个输出块依次排列成输出特征图,获取反卷积计算结果。上述计算过程中,未在原输入特征图中插入大量的零,有效提高了计算效率。

    基于Q-learning的最优策略获取方法及装置

    公开(公告)号:CN113887736A

    公开(公告)日:2022-01-04

    申请号:CN202111114741.9

    申请日:2021-09-23

    Applicant: 南京大学

    Abstract: 本申请提供基于Q‑learning的最优策略获取方法及装置。所述方法包括:从当前场景的起始状态开始,根据各个可执行动作所对应的当前Q值确定目标动作后,利用贝尔曼方程更新当前状态下每个可执行动作所对应的当前Q值,再控制智能体执行目标动作,以得到下一候选状态,直至到达终止状态或触碰到当前场景的边界,结束当前控制过程,获取当前控制过程所得的累加回报值,如此重复控制,最终将累加回报值最大的目标控制过程中智能体经过的所有候选状态,确定为从起始状态到终止状态的最优策略。整个过程通过并行更新当前状态下所有可执行动作的当前Q值,可以加快Q表的收敛速率,缩短训练时间,进而提高最优策略的获取效率。

    基于Transformer神经网络的模型压缩方法、矩阵乘法模块

    公开(公告)号:CN113486298A

    公开(公告)日:2021-10-08

    申请号:CN202110721961.1

    申请日:2021-06-28

    Applicant: 南京大学

    Abstract: 本申请实施例公开了基于Transformer神经网络的模型压缩方法、矩阵乘法模块,在该方法中,根据预设的第一参数,对原始权重矩阵中的每行权重进行分组,得到多个权重组,然后根据预设的第二参数,对每个权重组进行剪枝,最后获取非零权重矩阵以及二进制掩膜。该方法将权重的每行分为多组,各个权重组的非零元素数量一致,后续在计算流程中,并行计算的非零权重矩阵能够保持相同的计算时间,以此达到负载均衡的目的,具有较好的加速效果。

    一种低复杂度低延迟的GII-BCH编码器硬件架构

    公开(公告)号:CN111446974A

    公开(公告)日:2020-07-24

    申请号:CN201910045503.3

    申请日:2019-01-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种低复杂度低延迟的GII-BCH编码器的硬件架构。现有文献对GII-BCH的编码算法研究仅仅停留在软件层面,本发明首次提出了GII-BCH编码器的硬件架构。该架构对GII-BCH的所有子码进行并行编码,子码的信息序列同时进入编码器,在经过一定延迟之后,编码器开始输出编码后的子码序列。该并行结构使得该编码器架构在要求高吞吐率应用场景中有着很大潜力。此外,传统GII-BCH码的编码器有着极高的硬件复杂度和延迟。我们对传统的编码算法进行修改,简化了转移矩阵,并且直接从转移矩阵中得到系数向量。系数向量主导了编码器的结构,因此我们由更为简化的系数向量得到复杂度更低,延迟更短的GII-BCH编码器。

Patent Agency Ranking