一种面向典型网络块结构的层融合加速与调度装置

    公开(公告)号:CN117575884A

    公开(公告)日:2024-02-20

    申请号:CN202311599686.6

    申请日:2023-11-28

    Applicant: 南京大学

    Abstract: 本发明提供了一种面向典型网络块结构的层融合加速与调度装置,包括输入存储部分、层参数选择部分、计算部分、输出排序与存储部分,以及控制部分。所述输入存储部分存储输入像素、中间融合结果和权重,层参数选择部分预存各层参数并调用,计算部分支持卷积、深度卷积与池化计算,输出排序与存储部分将输出或中间融合层计算结果排序并存储在片上,控制部分负责所有部分的控制。本发明基于典型块结构特点,采用纵向融合、横向融合或二者联合融合来实现性能优化。纵向融合通过优化的执行调度消除了冗余的片外访问从而减少了数据传输延迟,中间融合层存储没有消耗额外的片上资源;横向融合在减少冗余片外访问基础上还平衡了计算负载,提高了计算效率。

    一种稀疏卷积神经网络系统及排序计算方法

    公开(公告)号:CN117556878A

    公开(公告)日:2024-02-13

    申请号:CN202310028413.X

    申请日:2023-01-09

    Applicant: 南京大学

    Abstract: 本申请一些实施例提供一种稀疏卷积神经网络系统及排序计算方法,所述方法可以通过权重稀疏对稀疏卷积神经网络进行加速,以及通过并行处理稀疏卷积神经网络中不同输入通道与输出通道的卷积计算,复用输入通道的输入激活数据以及权重值。在并行处理卷积计算时,还通过求解拉丁方阵对权重计算次序进行重排序,使输入通道与输出通道的非零权重个数保持平衡。所述方法可以缓解并行处理过程中处理单元之间负载不平衡的问题,提高处理单元的处理效率,进而改善稀疏卷积神经网络的加速效果。

    一种浮点数转换电路
    43.
    发明授权

    公开(公告)号:CN111310909B

    公开(公告)日:2024-02-13

    申请号:CN202010111005.7

    申请日:2020-02-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。

    基于存储访问的可编程神经网络推理加速器及方法

    公开(公告)号:CN117195982A

    公开(公告)日:2023-12-08

    申请号:CN202310030393.X

    申请日:2023-01-09

    Applicant: 南京大学

    Abstract: 本申请提供一种基于存储访问的可编程神经网络推理加速器及方法,所述神经网络推理加速器包括数据加载模块、指令分发模块、数据运算模块、数据写回模块以及片上存储单元阵列,其中,数据加载模块、数据运算模块和数据写回模块均与片上存储单元阵列发生单向或双向的数据读写,通过指令分发模块将片外加载的指令分发至其余模块,并控制其余模块执行或并行执行相应的任务,以完成神经网络部署。所述方法可以将运算模块和数据取用模块进行解耦,通过单指令多周期强制同步的方式,利用生成的指令对模块访问存储进行控制,从而将数据的依赖关系从模块之间转移到所控制的存储地址上,增强加速器的可编程性和通用性。

    一种高效的转置卷积计算方法

    公开(公告)号:CN112650974B

    公开(公告)日:2023-10-13

    申请号:CN202011617770.2

    申请日:2020-12-30

    Applicant: 南京大学

    Abstract: 本申请公开了一种高效的转置卷积计算方法,基于预设的转置卷积核的尺寸参数、转置卷积的步长和转换阶数确定转置卷积总体架构,对用于原特征图的提取的滑动窗口进行了设计,根据设计后的滑动窗口提取特征图子图,对所述特征图子图进行转换,转换转置卷积核,并进行计算,对中间子矩阵进行转换,进而获得转置卷积结果。本申请实现在不需要补零的操作下,对原特征图进行转置卷积运算,提高运算效率;提出转换阶数的设置,扩大适用范围,进一步降低计算复杂度。

    一种基于LSTM网络的片上微调方法及装置

    公开(公告)号:CN116029332B

    公开(公告)日:2023-08-22

    申请号:CN202310147794.3

    申请日:2023-02-22

    Applicant: 南京大学

    Abstract: 本申请提供一种基于LSTM网络的片上微调方法及装置,方法包括:根据LSTM网络模型的参数,生成计算参数;根据计算参数对输入值和权重值进行细粒度切分,以及生成指令集合;在神经网络处理器NPU读取指令集合;根据指令集合执行NPU片上计算,以生成中间值和LSTM网络输出值;将LSTM网络输出值传输至误差函数,并通过误差函数得到误差值;根据误差值,更新所述权重值以及偏置值;使用更新后的权重值以及偏置值反向传播,以根据指令集合执行新一轮NPU片上计算。本申请提供的方法通过CPU、NPU协同,将LSTM网络中的运算分工,以解决CPU、GPU无法快速高效的计算LSTM网络的问题。

    一种面向大规模MIMO系统的信号检测方法及系统

    公开(公告)号:CN115276729A

    公开(公告)日:2022-11-01

    申请号:CN202210864604.5

    申请日:2022-07-21

    Applicant: 南京大学

    Abstract: 本申请提供一种面向大规模MIMO系统的信号检测方法及系统,根据发送端的天线数目和接收端的天线数目,确定第一阻尼系数和第二阻尼系数;根据接收信号、信道矩阵、平均符号能量和第一阻尼系数,确定发送信号后验概率分布的初始均值;利用SORI方法对发送信号的后验概率分布的均值进行SORI迭代,根据完成SORI迭代后的均值向量,确定腔边缘概率服从的高斯分布的初始均值;采用EPA迭代方法,迭代更新腔边缘概率服从的高斯分布的均值,将达到EPA预设迭代次数的腔边缘概率服从的高斯分布的均值作为发送信号的估计值。将SORI和EPA算法相结合,利用SORI来近似EPA算法初始化部分的矩阵求逆,从而大大提高收敛速度。

    一种基于灰色混合模型的金融时间序列短期预测方法

    公开(公告)号:CN114638703A

    公开(公告)日:2022-06-17

    申请号:CN202210348393.X

    申请日:2022-04-01

    Applicant: 南京大学

    Abstract: 本申请涉及金融风险管理技术领域,提供一种基于灰色混合模型的金融时间序列短期预测方法,该预测方法针对传统灰色模型进行改进,通过采用离散小波变换对原数据序列进行处理,有效去除高频的细小波动,从而提高模型对数据的预测精度,进而使得金融时间序列预测效果更佳;通过将历史数据结合不同长度择优设置一个滑动窗口来限制数据序列长度,已解决过多的历史数据中存在大量无用信息,过少的数据不足以预测这一难题;还通过将预处理后的原数据经过灰色模型预测之后,根据发展系数对预测结果进行移动加权平均计算,从而避免不可预料的趋势变化带来巨大误差,进而使得最终结果比灰色模型的预测结果具有更高精度。

    应用于Transformer神经网络的硬件加速器及其计算方法

    公开(公告)号:CN114118344A

    公开(公告)日:2022-03-01

    申请号:CN202010900182.3

    申请日:2020-08-31

    Applicant: 南京大学

    Abstract: 本申请公开了应用于Transformer神经网络的硬件加速器及其计算方法,该硬件加速器包括:数据存储模块、脉动阵列模块、偏置相加模块、点积注意力函数运算模块、激活函数运算模块、残差相加模块、层归一化函数运算模块及控制模块。脉动阵列模块包括多个用于执行矩阵计算的基本运算单元,控制模块用于控制硬件加速器的计算流程。基于能够执行Transformer神经网络中所有矩阵计算的脉动阵列模块,上述硬件加速器可有效提高Transformer神经网络的运算速度及效率。

    应用于Transformer神经网络的层归一化处理硬件加速器及方法

    公开(公告)号:CN114118343A

    公开(公告)日:2022-03-01

    申请号:CN202010898001.8

    申请日:2020-08-31

    Applicant: 南京大学

    Abstract: 本申请公开了应用于Transformer神经网络的层归一化处理硬件加速器及方法,该硬件加速器包括中间矩阵存储单元、第一均值计算单元、第二均值计算单元、第一平方计算单元、第二平方计算单元、平方根倒数计算单元及输出矩阵计算单元。中间矩阵存储单元、第一均值计算单元及平方根倒数计算单元的输出端均接至输出矩阵计算单元,第一均值计算单元的输出端接至第一平方计算单元。第一平方计算单元的输出端接至平方根倒数计算单元。第二平方计算单元的输出端接至第二均值计算单元。第二均值计算单元的输出端接至平方根倒数计算单元。通过硬件加速器执行层归一化处理,能够减小延时,提高Transformer神经网络的运算速度和效率。

Patent Agency Ranking