-
公开(公告)号:CN108021537A
公开(公告)日:2018-05-11
申请号:CN201810016954.X
申请日:2018-01-05
Applicant: 南京大学
IPC: G06F17/15
Abstract: 本发明公开了一种基于各种硬件平台(CPLD、FPGA、专用芯片等)计算softmax函数的实现方式。softmax函数广泛应用于深度学习的多分类任务及注意力模型等,其中涉及到的e指数及除法计算需要消耗较多的硬件资源。设计方法通过对函数进行数学变换,将其中的e指数计算简化为一次常数乘法、一个输入范围固定的2的指数次运算和一次移位运算;将n次除法运算的简化为一次“最高非零位检测运算”、一次输入范围固定的倒数运算和一次移位运算及n次乘法运算。其中2指数及倒数运算以特殊设计的查找表实现,能以更小的存储空间实现同样精度。将本发明用在深度学习的注意力模型等中,可以在精度几乎不受损的前提下大大提高计算速度,减少计算资源和存储资源的消耗。
-
公开(公告)号:CN107862381A
公开(公告)日:2018-03-30
申请号:CN201711101343.7
申请日:2017-11-06
Applicant: 南京大学
CPC classification number: G06N3/063 , H03H17/06 , H03H2017/0081
Abstract: 本发明公开了一种可适用于多种卷积模式的FIR滤波器及其硬件实现,该结构可以支持目前卷积神经网络中主流的卷积运算,如步长为1的3*3和5*5的卷积计算以及步长为2的3*3卷积运算等,并运用6并行快速FIR算法来减小硬件消耗,降低卷积计算复杂度,提高数据吞吐率。本发明完成了步伐为2的三并行卷积运算的硬件结构推导,并在不增加加法器与乘法器的基础上将其与6并行快速FIR滤波器硬件结构相结合,使得该结构在适配的每种模式下都极大得利用了硬件资源。本发明通过该单一硬件结构的不同配置可以实现目前绝大多数主流的卷积神经网络计算,提高了硬件利用率,具备了高通用性,简化了卷积神经网络的硬件实现。
-
公开(公告)号:CN107666325A
公开(公告)日:2018-02-06
申请号:CN201710854876.6
申请日:2017-09-20
Applicant: 南京大学
IPC: H03M13/13
CPC classification number: H03M13/13
Abstract: 本发明提供的一种基于列表连续删除算法的极化码译码路径选择方法,包括:以二叉树表示目标极化码,译码器遍历二叉树,直到发现二叉树上的特殊节点,并在当前特殊节点下所关联的比特进行译码判决,并根据判决结果进行译码路径扩展;将当前特殊节点的译码列表中的任一条原始路径接收到的软信息向量进行硬判决,得出二进制的参考列表,并计算条备选路径中第j条构成的列表与参考列表之间的汉明距离,采用汉明距离过滤器对每一条原始译码路径的备选路径进行筛选,然后在通过汉明距离过滤器筛选余下的备选路径中找出L条译码路径,能够有效降低在特殊节点时的译码路径选择时的排序空间,从而提高译码路径的选择效率,进而提高极化码的译码效率和速度,并且能够有效保证译码的准确率。
-
公开(公告)号:CN107644252A
公开(公告)日:2018-01-30
申请号:CN201710151828.0
申请日:2017-03-10
Applicant: 南京大学
IPC: G06N3/08
Abstract: 本发明公开了一种多机制混合的递归神经网络模型压缩方法。方法包括:A、循环矩阵约束:将递归神经网络中部分参数矩阵限制为循环矩阵,并更新后向梯度传播算法使网络可以进行循环矩阵的批量训练;B、前向激活函数近似:前向运算时将非线性的激活函数替换为硬件友好的线性函数,后向梯度更新过程保持不变;C、混合量化:根据递归神经网络中不同参数对误差可容忍度的差异,针对不同参数采用不同的量化机制;D、二次训练机制:将网络模型的训练分为初始训练和重训练两个阶段,每个阶段侧重不同的模型压缩方法,很好地避免了不同模型压缩方法间的相互影响,最大程度上减少了模型压缩方法带来的精度损失。本发明通过灵活地运用多种模型压缩机制来压缩递归神经网络模型,可以大大减少模型参数,适用于需要使用递归神经网络的存储受限、低延迟嵌入式系统,具有很好的创新性和应用前景。
-
公开(公告)号:CN106897734A
公开(公告)日:2017-06-27
申请号:CN201710033021.7
申请日:2017-01-12
Applicant: 南京大学
CPC classification number: G06K9/6223 , G06N3/0454 , G06N3/063 , G06N3/08
Abstract: 本发明公开了一种基于深度卷积神经网络的层内非均匀的K平均聚类定点量化方法,包括一下步骤:步骤一,选取部分深度卷积神经网络的能够正确识别的图像,并提取识别过程中产生的特征映射(Feature Map);步骤二,对卷积神经网络中的特征映射进行层间非规则量化,在保持模型精度情况下,确定每一层卷积网络的最大量化位数;步骤三,对于模型中的每一卷积层,利用K平均聚类算法(K Means Clustering)确定满足特征映射分布的定点值,并使定点值的范围在最大量化位数能表示的范围内,用定点值代表特征映射中的值,并以索引的形式进行保存;步骤四,利用神经网络模型微调方法(Fine Tuning Method)对模型进行微调,消除量化带来的误差。本发明层间非均匀的K平均聚类定点量化方法,能够在保持模型精度的前提下大幅度减少深度卷积神经网络的特征映射的存储开销,具有一定的创新性。
-
公开(公告)号:CN106875011A
公开(公告)日:2017-06-20
申请号:CN201710032864.5
申请日:2017-01-12
Applicant: 南京大学
IPC: G06N3/063
Abstract: 本发明公开了一种用于二值权重卷积神经网络加速器的硬件架构及其计算流程。其中,硬件架构包含以下部分:三个双端片上静态随机存储器,分别用于缓存输入神经元以及一个卷积层的二值权重;四个卷积处理单元,能够根据计算流程控制其中的运算部件完成主要的卷积计算操作;一个特征映射累积单元以及一个卷积累加阵列,用于进一步处理卷积处理单元的运算结果,以得到最终正确的输出神经元的值。整个设计通过动态随机存储器接口与片外存储器交换数据。除了硬件架构以外,本发明还包含了一个对该硬件架构优化了的,以四行输入特征映射为一次完整计算单位的详细计算流程。本发明最大化的复用了输入数据,尽可能的消除了片外存储器的访问,能够有效降低进行深度二值卷积神经网络计算的功耗,且能够支持深层网络,是一种可用于视觉应用的嵌入式系统的合理方案。
-
公开(公告)号:CN114663292B
公开(公告)日:2025-04-01
申请号:CN202011527239.6
申请日:2020-12-22
Applicant: 南京大学
IPC: G06T5/73 , G06T5/60 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0475 , G06N3/094 , G06N3/0464
Abstract: 本申请公开了超轻量级图片去雾及识别网络模型,通过该网络模型实现了图片去雾及识别,包括依次相接的双向GAN网络模型以及目标检测网络模型。双向GAN网络模型对雾图进行去雾,输出清晰图至目标检测网络模型进行特征识别处理。目标检测网络模型经过行剪枝重训练,训练过程为对训练集的原始图像进行多次训练,每次训练之前,对原始图像进行预设倍数降采样,每次训练完后,对批归一化层的缩放系数进行排序比较,将其中缩放系数小于预设缩放阈值的通道对应的前一层卷积核去掉,实现剪枝。上述目标检测网络模型在目前微型识别模型的基础上进一步剪枝,极大减小超轻量级图片去雾及识别网络模型的规模,可以部署在算力和功耗资源有限的端侧平台。
-
公开(公告)号:CN114742215B
公开(公告)日:2025-03-28
申请号:CN202210393362.6
申请日:2022-04-14
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094 , G06T1/40 , G06F17/16 , G06F7/544
Abstract: 本申请提供一种三维反卷积加速方法及三维反卷积硬件加速架构。所述方法包括:利用候选反卷积核的尺寸、预设的变换强度和反卷积步长预先确定候选输入块的尺寸、待运算数据块的尺寸以及输出数据块的尺寸后,分别利用对应的二维预设前处理矩阵和前处理转置矩阵对候选输入块和候选反卷积核进行变换,并将各自得到的前处理数据块进行逐元素相乘,得到待运算数据块,再利用二维预设后处理矩阵和后处理转置矩阵对待运算数据块进行变换,最终得到候选输入块所对应的输出数据块。整个方法利用反卷积计算前后数据之间的关联性,将常规三维反卷积的乘法累加操作转化为前后处理和逐元素乘法,可以减少乘法次数,降低计算复杂度,从而极大地提高了计算效率。
-
公开(公告)号:CN119201230A
公开(公告)日:2024-12-27
申请号:CN202411240528.6
申请日:2024-09-04
Applicant: 南京大学
Abstract: 本申请提供一种适用于神经网络的可配多功能向量计算装置,包括存储控制模块,存储控制模块被配置为从神经网络中获取待计算数据,并将待计算数据存储在对应的寄存器中;操作码存储模块,操作码存储模块被配置为从神经网络中获取并存储若干个操作码;浮点计算模块,浮点计算模块被配置为根据操作码对待计算数据进行目标计算;目标计算包括基础计算、SRT计算和快速计算;状态机模块,状态机模块被配置为根据计算指令从操作码存储模块中选取对应的操作码以及从存储控制模块中选取对应的待计算数据,并将操作码和待计算数据发送给浮点计算模块进行对应操作码的目标计算。本申请通过上述计算装置解决了现有浮点计算技术灵活性差、通用性低的问题。
-
公开(公告)号:CN118133910A
公开(公告)日:2024-06-04
申请号:CN202410200492.2
申请日:2024-02-23
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06N3/08
Abstract: 本申请提供一种基于深度神经网络处理器的计算处理方法及装置,所述方法包括:获取输入数据、权重数据以及指令流;根据输入数据构建预设输入矩阵,根据权重数据构建权重矩阵;响应于指令流,对预设输入矩阵做第一矩阵变换,得到输入矩阵;对输入矩阵和权重矩阵执行第一计算,得到输出矩阵;将输出矩阵传输至量化深度神经网络的下一层,以作为量化深度神经网络下一层的输入矩阵。上述方法中,构建预设输入矩阵和权重矩阵,可以适配可变精度的数据且同时适配脉动阵列,提高计算效率;对输入矩阵和权重矩阵执行第一计算,计算后得出的输出矩阵与输入矩阵形式类似,可以直接传递至下一层进行推理,无需变换,提高量化DNN处理器的性能及吞吐量。
-
-
-
-
-
-
-
-
-