一种基于L-BFGS算法的通用硬件加速装置

    公开(公告)号:CN118363742A

    公开(公告)日:2024-07-19

    申请号:CN202410276529.X

    申请日:2024-03-12

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于L‑BFGS算法的通用硬件加速装置,包括顶层模块、搜索方向模块、目标函数模块、搜索步长模块;所述搜索方向模块用于计算搜索方向;所述搜索步长模块用于执行Armijo回溯线搜索算法。本方案在现实世界的应用为从单个输入的图像预测3D人脸模型。通过优化在3D人脸建模流程中的L‑BFGS算法求解最优id这一计算密集部分,使其预测3D人脸模型的速度提高。本方案计算出的id值与软件方案计算出的id的平均百分比误差为1.89%,在这个误差范围内,本方案求解的最优id生成的3D人脸建模与软件方案求解最优id的人脸建模基本一致,本方案相较于软件方案获得了158.147倍的加速比。

    一种基于深度神经网络处理器的计算处理方法及装置

    公开(公告)号:CN118133910A

    公开(公告)日:2024-06-04

    申请号:CN202410200492.2

    申请日:2024-02-23

    Applicant: 南京大学

    Abstract: 本申请提供一种基于深度神经网络处理器的计算处理方法及装置,所述方法包括:获取输入数据、权重数据以及指令流;根据输入数据构建预设输入矩阵,根据权重数据构建权重矩阵;响应于指令流,对预设输入矩阵做第一矩阵变换,得到输入矩阵;对输入矩阵和权重矩阵执行第一计算,得到输出矩阵;将输出矩阵传输至量化深度神经网络的下一层,以作为量化深度神经网络下一层的输入矩阵。上述方法中,构建预设输入矩阵和权重矩阵,可以适配可变精度的数据且同时适配脉动阵列,提高计算效率;对输入矩阵和权重矩阵执行第一计算,计算后得出的输出矩阵与输入矩阵形式类似,可以直接传递至下一层进行推理,无需变换,提高量化DNN处理器的性能及吞吐量。

    一种可变精度量化深度神经网络处理器及数据处理方法

    公开(公告)号:CN118133909A

    公开(公告)日:2024-06-04

    申请号:CN202410200414.2

    申请日:2024-02-23

    Applicant: 南京大学

    Abstract: 本申请提供一种可变精度量化深度神经网络处理器及数据处理方法,所述方法包括:从数据缓存单元获取待处理数据,待处理数据包括第一数据、第二数据和第三数据;根据第一数据选择可变精度乘法器和/或可变精度加法器的精度;通过脉动阵列对第二数据和第三数据执行乘累加计算得到输出数据,以及将输出数据输入到数据缓存单元。所述可变精度量化DNN处理器可以根据待处理数据中的第一数据选择不同的精度执行计算,达到适配不同精度数据的目的,且可变精度量化DNN处理器包括浮点乘法器、浮点加法器,可以实现第一浮点精度和第二浮点精度的计算,使可变精度量化DNN处理器支持片上训练,提高可变精度量化DNN处理器的吞吐量和能效比。

    一种面向典型网络块结构的层融合加速与调度装置

    公开(公告)号:CN117575884A

    公开(公告)日:2024-02-20

    申请号:CN202311599686.6

    申请日:2023-11-28

    Applicant: 南京大学

    Abstract: 本发明提供了一种面向典型网络块结构的层融合加速与调度装置,包括输入存储部分、层参数选择部分、计算部分、输出排序与存储部分,以及控制部分。所述输入存储部分存储输入像素、中间融合结果和权重,层参数选择部分预存各层参数并调用,计算部分支持卷积、深度卷积与池化计算,输出排序与存储部分将输出或中间融合层计算结果排序并存储在片上,控制部分负责所有部分的控制。本发明基于典型块结构特点,采用纵向融合、横向融合或二者联合融合来实现性能优化。纵向融合通过优化的执行调度消除了冗余的片外访问从而减少了数据传输延迟,中间融合层存储没有消耗额外的片上资源;横向融合在减少冗余片外访问基础上还平衡了计算负载,提高了计算效率。

    一种稀疏卷积神经网络系统及排序计算方法

    公开(公告)号:CN117556878A

    公开(公告)日:2024-02-13

    申请号:CN202310028413.X

    申请日:2023-01-09

    Applicant: 南京大学

    Abstract: 本申请一些实施例提供一种稀疏卷积神经网络系统及排序计算方法,所述方法可以通过权重稀疏对稀疏卷积神经网络进行加速,以及通过并行处理稀疏卷积神经网络中不同输入通道与输出通道的卷积计算,复用输入通道的输入激活数据以及权重值。在并行处理卷积计算时,还通过求解拉丁方阵对权重计算次序进行重排序,使输入通道与输出通道的非零权重个数保持平衡。所述方法可以缓解并行处理过程中处理单元之间负载不平衡的问题,提高处理单元的处理效率,进而改善稀疏卷积神经网络的加速效果。

    一种浮点数转换电路
    76.
    发明授权

    公开(公告)号:CN111310909B

    公开(公告)日:2024-02-13

    申请号:CN202010111005.7

    申请日:2020-02-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。

    一次性网络架构搜索方法及硬件加速器

    公开(公告)号:CN117454932A

    公开(公告)日:2024-01-26

    申请号:CN202311280100.X

    申请日:2023-10-07

    Applicant: 南京大学

    Abstract: 本申请提供一种一次性网络架构搜索方法及硬件加速器,所述方法包括:构建超级网络,超级网络由多个层结构组成,获取一次性超级网络训练算法,基于一次性超级网络训练算法,对超级网络进行训练,得到目标深度神经网络;基于目标深度神经网络,利用遗传算法并结合FPGA加速器,使用FPGA感知的网络架构搜索,得到具有最优精度和硬件性能的网络架构,以解决目前基于乘法算子的深度神经网络在执行图像分类任务时的分类精度虽然高,但是在硬件实现时,能耗和面积开销巨大,很难应用到移动设备或者物联网设备中;而基于无乘法算子的深度神经网络虽然在硬件实现时,具有优越的硬件执行效率,但其在完成图像分类任务时,分类精度较低的问题。

    基于存储访问的可编程神经网络推理加速器及方法

    公开(公告)号:CN117195982A

    公开(公告)日:2023-12-08

    申请号:CN202310030393.X

    申请日:2023-01-09

    Applicant: 南京大学

    Abstract: 本申请提供一种基于存储访问的可编程神经网络推理加速器及方法,所述神经网络推理加速器包括数据加载模块、指令分发模块、数据运算模块、数据写回模块以及片上存储单元阵列,其中,数据加载模块、数据运算模块和数据写回模块均与片上存储单元阵列发生单向或双向的数据读写,通过指令分发模块将片外加载的指令分发至其余模块,并控制其余模块执行或并行执行相应的任务,以完成神经网络部署。所述方法可以将运算模块和数据取用模块进行解耦,通过单指令多周期强制同步的方式,利用生成的指令对模块访问存储进行控制,从而将数据的依赖关系从模块之间转移到所控制的存储地址上,增强加速器的可编程性和通用性。

    高性能、低复杂度的无线天线系统信号检测方法和装置

    公开(公告)号:CN117118538A

    公开(公告)日:2023-11-24

    申请号:CN202311150865.1

    申请日:2023-09-07

    Applicant: 南京大学

    Abstract: 本发明提供了高性能、低复杂度的无线天线系统信号检测方法和装置。所述方法包括:步骤1,对大规模天线系统建模,获取模型参数;步骤2,进行预处理计算;步骤3,进行改进的优化梯度下降迭代;该方法可以进一步包含:步骤4,进行解调;步骤5,进行改进的相似度上升搜索迭代。所述装置包括预处理模块和OCD迭代模块,预处理模块用于执行步骤2,OCD迭代模块用于执行步骤3。所述装置的另一实施方式包括预处理模块和MB‑SGD模块,预处理模块用于执行步骤2,MB‑SGD模块用于执行步骤3~5。本发明提出的基于调制的串行梯度下降算法在性能优于OCD算法的同时,所需的硬件资源更少、延时更低,吞吐率与硬件资源的比值更高。

    面向关联信道的mMIMO检测预处理和参数预训练方法

    公开(公告)号:CN117118486A

    公开(公告)日:2023-11-24

    申请号:CN202311150678.3

    申请日:2023-09-07

    Applicant: 南京大学

    Abstract: 本发明提供了面向关联信道的mMIMO检测预处理和参数预训练方法,所述预处理方法包括:步骤a1,对大规模MIMO系统上行链路进行建模;步骤a2,计算得到格拉姆Gram矩阵W;步骤a3,根据格拉姆Gram矩阵W获取预处理矩阵P;步骤a4,利用预处理矩阵P对格拉姆Gram矩阵W进行预处理,获得新的格拉姆Gram矩阵W1:W1=PW;步骤a5,将矩阵W1采用迭代代替矩阵求逆算法处理。该方法可以应用于多种迭代代替矩阵求逆的算法,从而加速这些算法的收敛,使其在关联信道下检测性能提升2dB以上。

Patent Agency Ranking