-
公开(公告)号:CN111428189B
公开(公告)日:2023-09-22
申请号:CN202010249282.4
申请日:2020-04-01
Applicant: 南京大学
Abstract: 本申请实施例公开了一种用于反卷积运算的数据预处理方法及装置,通过根据反卷积核的尺寸以及所述反卷积核的步长,设定多个抽取起始点,并根据所述多个抽取起始点,分别按照预设的抽取间隔,对所述反卷积核进行元素抽取,获取多个子卷积核,其中,不同的抽取起始点对应获取不同的子卷积核,每一个所述子卷积核包括抽取所得的多个元素。上述方法中,硬件加速器在针对子卷积核与输入矩阵执行相乘累加操作时,不会存在大量的无效操作,提高了硬件加速器的计算效率,也无需额外的寄存器存储无效操作得到的中间结果,节省了硬件加速器的存储资源。
-
公开(公告)号:CN116451004A
公开(公告)日:2023-07-18
申请号:CN202310440082.0
申请日:2023-04-23
Applicant: 南京大学
Abstract: 本发明提供了一种用于矩阵求逆和矩阵乘法的处理器,包括处理单元PU阵列、除法器阵列、存储器和有限状态机;所述处理单元PU阵列用于进行矩阵乘法运算和矩阵求逆运算;所述处理单元PU阵列包括脉动阵列,本发明中的脉动阵列既可以实现矩阵乘法,也可以实现矩阵的LU分解和上下三角矩阵求逆,进而实现任意矩阵求逆,而非利用两块不同的硬件资源来分别实现矩阵乘法和矩阵求逆,显著提高了硬件的利用率。
-
公开(公告)号:CN116245149A
公开(公告)日:2023-06-09
申请号:CN202211636249.2
申请日:2022-12-20
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06F3/06 , G06F9/38 , G06F15/163
Abstract: 本申请提供了一种基于RISC‑V指令集拓展的加速计算装置与方法,包括:RISC‑V微处理器核模块,被配置为控制量化神经网络的读写,存储指令和小规模数据,进行取指操作,并生成自定义指令;协处理器核模块,被配置为执行来自RISC‑V微处理器核模块发送的自定义指令;存储模块,通过AXI总线与AXI互联设备相连接,其中,所述存储模块包括:DDR存储器,被配置为存储大批量的用于生成自定义指令的量化神经网络参数;DDR控制器,被配置为控制DDR存储器的读写,以解决目前的CNN模型的计算量以及参数量都十分庞大,导致模型在运行过程中需要占用大量内存,同时消耗超高算力的问题。
-
公开(公告)号:CN115205593A
公开(公告)日:2022-10-18
申请号:CN202210836215.1
申请日:2022-07-15
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82 , G06V10/774 , G06V10/94
Abstract: 本申请提供一种应用于智能终端的图像分类方法及装置。所述方法包括:响应于图像分类任务,从候选模型集合中随机选取一个候选模型,得到目标模型;使用目标模型执行图像分类任务,得到分类结果。其中,候选模型集合包括通过云端GPU按照不同的稀疏阈值,结构化稀疏一个原始模型得到的多个候选模型。采用本申请提供的所述图像分类方法,即使攻击者获得用于推理的所有信息,包括模型结构、参数、随机策略以及用于随机的候选模型集合,但是也不能得知我们当前用于推理的候选模型集合中的哪一个模型。因此,不管攻击者采用同样的随机策略或者利用固定模型生成攻击样本,本申请提供的图像分类方法都能够兼顾用于推理的神经网络模型的鲁棒性和高效性。
-
公开(公告)号:CN115115018A
公开(公告)日:2022-09-27
申请号:CN202110295873.X
申请日:2021-03-19
Applicant: 南京大学
Abstract: 本申请提供一种用于长短记忆神经网络的加速系统,所述加速系统包括主机以及与所述主机实现数据交互的加速装置。所述加速装置包括:含有多个计算通道的通道组,与所述通道组相连接的权重缓存区、偏置缓存区以及激活缓存区,除此之外,加速装置还包括控制器以及解码组件。本申请中,主机用于对权重数据进行预处理获得第一输入数据,该第一输入数据为多组参数数量均衡的权重数据的集合。权重缓存区用于接收第一输入数据,该第一输入数据经解码组件解码后即可用于计算。将多组参数数量均衡的权重数据分别分配给不同处理单元进行计算,使得不同处理单元处理时间基本一致,从而解决随机稀疏带来的硬件负载不均衡问题。
-
公开(公告)号:CN114943783A
公开(公告)日:2022-08-26
申请号:CN202210651537.9
申请日:2022-06-09
Applicant: 南京大学
Abstract: 本申请提供一种面向复杂纹理结构的艺术字生成系统,包括输入处理模块处理输入的源文字生成黑白文本掩膜,利用黑白文本掩膜处理输入的风格图片生成风格小块;生成对抗网络模型的第一生成器处理黑白文本掩膜和风格小块,生成扩充预设倍数的真实边缘的风格大块;生成对抗网络模型的第二生成器处理风格大块进行,生成风格大块的黑白风格掩膜;细节细化模块包括结构细化网络和纹理细化网络,结构细化网络结构细化处理风格大块,生成中间艺术字;纹理细化网络根据黑白风格掩膜纹理细化处理中间艺术字,生成最终艺术字。如此,通过生成艺术字雏形,再对艺术字雏形进行结构和细节细化,实现了基于复杂纹理结构生成复杂风格效果的艺术字。
-
公开(公告)号:CN114663292A
公开(公告)日:2022-06-24
申请号:CN202011527239.6
申请日:2020-12-22
Applicant: 南京大学
Abstract: 本申请公开了超轻量级图片去雾及识别网络模型,通过该网络模型实现了图片去雾及识别,包括依次相接的双向GAN网络模型以及目标检测网络模型。双向GAN网络模型对雾图进行去雾,输出清晰图至目标检测网络模型进行特征识别处理。目标检测网络模型经过行剪枝重训练,训练过程为对训练集的原始图像进行多次训练,每次训练之前,对原始图像进行预设倍数降采样,每次训练完后,对批归一化层的缩放系数进行排序比较,将其中缩放系数小于预设缩放阈值的通道对应的前一层卷积核去掉,实现剪枝。上述目标检测网络模型在目前微型识别模型的基础上进一步剪枝,极大减小超轻量级图片去雾及识别网络模型的规模,可以部署在算力和功耗资源有限的端侧平台。
-
公开(公告)号:CN114626516A
公开(公告)日:2022-06-14
申请号:CN202210300275.1
申请日:2022-03-24
Applicant: 南京大学
Abstract: 本申请提供一种基于对数块浮点量化的神经网络加速系统。所述系统包括编译器、运行时和神经网络加速器,在使用时,编译器按照量化分块粒度对待部署模型数据进行分块,并将待部署模型全部转换为硬件指令,通过运行时与神经网络加速器进行交互,神经网络加速器根据指令将数据按照搬运分块粒度从片外分块搬运至片上进行加载,并对各个数据量化分块进行对数块浮点量化,最终利用量化结果执行对应的神经网络运算。整个系统通过编译器将模型转换为硬件可以识别的指令,由运行时向硬件下发指令和数据并与硬件进行高效通信,同时采用完全适配于对数块浮点量化方法的硬件架构,计算冗余较少,计算效率较高,可以有效地支持深度神经网络模型的端到端部署。
-
公开(公告)号:CN107888537B
公开(公告)日:2021-07-30
申请号:CN201711254630.1
申请日:2017-11-28
Applicant: 南京大学
Abstract: 本发明公开了一种在大规模天线系统中改善系统复杂度的信号检测方法。在通信系统中天线数目的增加将导致信号检测的过程和计算变得非常复杂。本发明提出了一种基于信道硬化特性的深度简化的消息传递方法,包括以下步骤:步骤一,系统实数域化,并行计算每个用户的软消息向量,排序确定其最大软消息对应的星座点向量;步骤二:迭代计算,依次计算每个用户的均值消息和软消息向量,更新最大软消息对应的星座点向量,并即时运用于下个用户的消息传递;步骤三:利用固定星座点向量计算均值,并行完成最后一次消息传递,将更新后的星座点向量转化回复数域后作为对信号的估计。本发明利用即时更新和固定点计算相结合的消息传递方式,能够在不影响系统误码率性能的前提下有效降低系统的迭代次数和计算复杂度,具有一定的创新性。
-
公开(公告)号:CN112181358A
公开(公告)日:2021-01-05
申请号:CN202011158090.9
申请日:2020-10-26
Applicant: 南京大学
Abstract: 本申请公开了一种可重构神经网络训练计算方法及装置,包括获取输入数据的属性信息;所述属性信息包括卷积核大小、步长值和计算模式信息;根据所述属性信息生成控制指令,将原始计算单元配置为训练计算单元;本申请的方案采用多路选择器来适配不同的计算模式,通过获取输入数据的属性信息,并根据属性信息将原始计算单元配置为训练计算单元,使得训练计算单元可以高效支持前向传播、反向传播、梯度生成过程中多种不同的计算模式,提高计算单元利用率,还具有消除不同阶段下产生的无效计算的效果;同时,通过该架构的灵活性,有提高单元利用率的优点,能够降低冗余计算和提高数据复用率,从而能够加速卷积网络训练过程。
-
-
-
-
-
-
-
-
-