应用于Transformer神经网络的层归一化处理硬件加速器及方法

    公开(公告)号:CN114118343A

    公开(公告)日:2022-03-01

    申请号:CN202010898001.8

    申请日:2020-08-31

    Applicant: 南京大学

    Abstract: 本申请公开了应用于Transformer神经网络的层归一化处理硬件加速器及方法,该硬件加速器包括中间矩阵存储单元、第一均值计算单元、第二均值计算单元、第一平方计算单元、第二平方计算单元、平方根倒数计算单元及输出矩阵计算单元。中间矩阵存储单元、第一均值计算单元及平方根倒数计算单元的输出端均接至输出矩阵计算单元,第一均值计算单元的输出端接至第一平方计算单元。第一平方计算单元的输出端接至平方根倒数计算单元。第二平方计算单元的输出端接至第二均值计算单元。第二均值计算单元的输出端接至平方根倒数计算单元。通过硬件加速器执行层归一化处理,能够减小延时,提高Transformer神经网络的运算速度和效率。

    一种生成数据集网络模型及雾图生成方法

    公开(公告)号:CN114494387B

    公开(公告)日:2025-04-22

    申请号:CN202210088025.6

    申请日:2022-01-25

    Applicant: 南京大学

    Abstract: 本申请涉及图像处理技术领域,尤其涉及一种生成数据集网络模型及雾图生成方法包括:图像编码模块、耦合生成对抗网络模块、对抗判别模块和合成模块;图像编码模块包括干净图数据集输入端口及雾图数据集输入端口,耦合生成对抗网络模块包括第一生成单元及第二生成单元,对抗判别模块包括第一判别器及第二判别器;第一生成单元包括第一编码器、共享潜在图像域和第一解码器,第二生成单元包括第二编码器、共享潜在图像域和第二解码器。在实际应用过程中,本申请提出了基于耦合生成对抗网络的神经网络框架,通过网络迭代训练过程中采用半监督学习策略和特定的组合损失函数,使得网络生成的图像能够学习到真实图像的深度信息,使得图像更具真实性。

    一种用于实现高能效乘法运算的存内计算电路

    公开(公告)号:CN117521734A

    公开(公告)日:2024-02-06

    申请号:CN202311462442.3

    申请日:2023-11-06

    Applicant: 南京大学

    Abstract: 本发明提供了一种用于实现高能效乘法运算的存内计算电路,包括存内Booth编码器阵列和存内计算阵列,存内计算阵列包括存内部分积生成器;存内部分积生成器存储被乘数,利用数据锁存单元中两个互补的锁存节点代表被乘数和被乘数的相反数,用临近数据锁存单元的两个互补锁存节点代表被乘数的两倍和被乘数的两倍的相反数,不增加额外的晶体管开销即可实现取反和移位,产生基4Booth算法所有可能的非零部分积,乘数信号控制存内Booth编码器阵列产生编码信号,编码信号控制数据选择器选出四种非零部分积中的一种。本发明适用于任意位宽乘法运算,提升了数据锁存单元电路的利用率和存算一体单元电路的对称性,能灵活调整计算并行度。

    一种适配深度学习硬件加速器的可重构激活函数硬件装置

    公开(公告)号:CN115936076A

    公开(公告)日:2023-04-07

    申请号:CN202211660618.1

    申请日:2022-12-23

    Applicant: 南京大学

    Abstract: 本发明提供了一种适配深度学习硬件加速器的可重构激活函数硬件装置,包括函数类型判断单元、ReLU计算单元、简化函数计算单元、可变精度单元和优化函数计算单元。该发明充分利用不同非线性激活函数计算表达式之间的相关性,可以实现对ReLU函数、ReLU6函数、PReLU函数、Leaky ReLU函数、Sigmoid函数、Tanh函数、Swish函数、H‑Sigmoid函数和H‑Swish函数九种神经网络常用激活函数的近似计算,从而适配多功能的深度学习硬件加速器,在计算资源和近似精度之间取得了很好的平衡,具有计算效率高、灵活、可重构等特点。

    应用于智能终端的图像分类方法及装置

    公开(公告)号:CN115205593A

    公开(公告)日:2022-10-18

    申请号:CN202210836215.1

    申请日:2022-07-15

    Applicant: 南京大学

    Abstract: 本申请提供一种应用于智能终端的图像分类方法及装置。所述方法包括:响应于图像分类任务,从候选模型集合中随机选取一个候选模型,得到目标模型;使用目标模型执行图像分类任务,得到分类结果。其中,候选模型集合包括通过云端GPU按照不同的稀疏阈值,结构化稀疏一个原始模型得到的多个候选模型。采用本申请提供的所述图像分类方法,即使攻击者获得用于推理的所有信息,包括模型结构、参数、随机策略以及用于随机的候选模型集合,但是也不能得知我们当前用于推理的候选模型集合中的哪一个模型。因此,不管攻击者采用同样的随机策略或者利用固定模型生成攻击样本,本申请提供的图像分类方法都能够兼顾用于推理的神经网络模型的鲁棒性和高效性。

    超轻量级图片去雾及识别网络模型、图片去雾及识别方法

    公开(公告)号:CN114663292A

    公开(公告)日:2022-06-24

    申请号:CN202011527239.6

    申请日:2020-12-22

    Applicant: 南京大学

    Abstract: 本申请公开了超轻量级图片去雾及识别网络模型,通过该网络模型实现了图片去雾及识别,包括依次相接的双向GAN网络模型以及目标检测网络模型。双向GAN网络模型对雾图进行去雾,输出清晰图至目标检测网络模型进行特征识别处理。目标检测网络模型经过行剪枝重训练,训练过程为对训练集的原始图像进行多次训练,每次训练之前,对原始图像进行预设倍数降采样,每次训练完后,对批归一化层的缩放系数进行排序比较,将其中缩放系数小于预设缩放阈值的通道对应的前一层卷积核去掉,实现剪枝。上述目标检测网络模型在目前微型识别模型的基础上进一步剪枝,极大减小超轻量级图片去雾及识别网络模型的规模,可以部署在算力和功耗资源有限的端侧平台。

    一种生成数据集网络模型及雾图生成方法

    公开(公告)号:CN114494387A

    公开(公告)日:2022-05-13

    申请号:CN202210088025.6

    申请日:2022-01-25

    Applicant: 南京大学

    Abstract: 本申请涉及图像处理技术领域,尤其涉及一种生成数据集网络模型及雾图生成方法包括:图像编码模块、耦合生成对抗网络模块、对抗判别模块和合成模块;图像编码模块包括干净图数据集输入端口及雾图数据集输入端口,耦合生成对抗网络模块包括第一生成单元及第二生成单元,对抗判别模块包括第一判别器及第二判别器;第一生成单元包括第一编码器、共享潜在图像域和第一解码器,第二生成单元包括第二编码器、共享潜在图像域和第二解码器。在实际应用过程中,本申请提出了基于耦合生成对抗网络的神经网络框架,通过网络迭代训练过程中采用半监督学习策略和特定的组合损失函数,使得网络生成的图像能够学习到真实图像的深度信息,使得图像更具真实性。

    基于三维立体结构的音乐播放系统及方法

    公开(公告)号:CN106971748B

    公开(公告)日:2024-10-01

    申请号:CN201710310719.9

    申请日:2017-05-05

    Applicant: 南京大学

    Abstract: 本发明所公开的基于三维立体结构的音乐播放系统及方法,用于交互演奏或乐音播放。该系统包括主机、多个呈三维立体状分布的感应单元、以及连接主机和各感应单元的总线,各感应单元包括电容感应元件及与电容感应元件电连接的子处理器,当电容感应元件电容发生改变时输出感应信号并发送至感应单元中的子处理器,子处理器若判断有触碰或靠近的动作信号时产生乐音触发指令,并将乐音触发指令通过总线传输至主机;主机包括处理器和乐音播放模块,处理器接收到来自各感应单元发出的乐音触发指令后,控制乐音播放模块进行播放相应音乐。通过该系统及方法优化现有近似产品的结构和可靠性,降低制作成本,增强用户体验。

    用于高能效自注意力机制计算的误差自适应的近似乘法器

    公开(公告)号:CN117521718A

    公开(公告)日:2024-02-06

    申请号:CN202311462440.4

    申请日:2023-11-06

    Applicant: 南京大学

    Abstract: 本发明提供了用于高能效自注意力机制计算的误差自适应的近似乘法器,本发明提出了一种根据数值大小自适应调整计算误差的近似乘法器,首先设计了一种计算误差为负的近似部分积生成器和一种计算误差为正的近似4:2压缩器,二者的误差会相互补偿,可以有效降低总体误差,从而可以容忍更多的近似比特,获得面积更小、功耗更低的近似乘法器电路;其次在华莱士树的第一级压缩器阵列的近似压缩器中加入power_gating控制电路,实现计算误差可以根据计算数值自适应调整,本发明可以实现更加激进、也更加低功耗的乘法器电路设计。

    一种快速右移移位累加器、分布式算法处理器和滤波器

    公开(公告)号:CN117149131A

    公开(公告)日:2023-12-01

    申请号:CN202311247914.3

    申请日:2023-09-26

    Applicant: 南京大学

    Abstract: 本发明提供了一种快速右移移位累加器、分布式算法处理器和滤波器,所述累加器包括加法模块和用来打断进位链的进位寄存器,所述加法模块包含n个全加器和n个寄存器,每个全加器的和输出端都连接一个寄存器;加法模块有三个输入和两个输出,第一个输入来自于高一级加法模块的n位和输出,第二个输入来自于接收的n位数据,第三个输入是进位寄存器的输出。本发明首次从根本上解决中右移移位累加器频率瓶颈问题的方案。本方案通过较小的额外硬件消耗,可将通过传统优化方案无法继续优化的右移移位累加器频率做进一步提升。

Patent Agency Ranking