一种浮点数转换电路
    61.
    发明公开

    公开(公告)号:CN111310909A

    公开(公告)日:2020-06-19

    申请号:CN202010111005.7

    申请日:2020-02-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种浮点数转换电路,能够将基于IEEE 754规范的单精度浮点数转换为posit数据格式的单精度浮点数,即第二浮点数。在很多神经网络的训练过程中,其运算数据近似服从正态分布,可通过变换使数据集中在0附近,而本发明中的posit数据格式的单精度浮点数在神经网络训练过程中就可以在0附近保证精度,并且,本发明中posit数据格式的单精度浮点数的预设总位宽是可以调控的,因此又可以很大程度的减少数据位宽,进而减少存储所需要的资源以及读写过程所消耗的资源,提高神经网络训练的效率。

    一种二进制原码加减法运算单元的硬件架构

    公开(公告)号:CN106940638B

    公开(公告)日:2020-04-24

    申请号:CN201710151784.1

    申请日:2017-03-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种新型的高速、低功耗、省面积的二进制有符号数的原码加/减运算单元的硬件架构。该架构有一个加/减控制信号,能够指示电路执行加法运算或减法运算。输入两个二进制有符号数的原码,在的加/减控制信号指示下,该硬件架构能够快速地计算出对应的两数的和或差,并仍然以原码的形式呈现。本发明主要包含了加法器,减法器,比较器,求补单元和数据选择器,接近并行化地计算出两数之和、差以及差的相反数,并根据两数的符号位、相对大小以及加/减控制信号的不同组合情况,迅速地从两数之和、差以及差的相反数三者中筛选出一个作为最终的结果。本发明通过优化计算方法,大大缩短了二进制原码加/减运算单元硬件架构的关键路径,并降低了功耗,减小了面积开销,使本发明具有广泛的运用前景。

    一种高速GII译码器的硬件架构

    公开(公告)号:CN110875746A

    公开(公告)日:2020-03-10

    申请号:CN201811016480.5

    申请日:2018-08-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种高速Generalized Integrated Interleaved(GII)code译码器的硬件架构。现有文献对GII的译码算法研究仅仅停留在软件层面,本发明首次提出了GII译码器的硬件架构。该架构充分利用GII码的特性,拥有极高的速度。为满足高吞吐率的要求,在interleave层面采用全并行;而在符号层面,校正子计算单元、嵌套校正子计算单元、钱搜索单元和数值计算单元均采用部分并行。针对算法中嵌套校正子的计算和关键方程系数更新两个部分,本发明设计了对应的高效硬件架构。而在逆矩阵乘法模块中,免去了复杂的矩阵求逆,使用查找表来实现。本架构可以达到极高的吞吐率,再考虑到GII码本身极低的译码复杂度,很适合应用在要求高速和低功耗FEC方案的场景中。

    一种面向高速硬件电路实现的GII码译码算法

    公开(公告)号:CN110875745A

    公开(公告)日:2020-03-10

    申请号:CN201811016477.3

    申请日:2018-08-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向高速硬件电路实现的GII码译码算法。修改了传统译码算法的顶层结构,使得译码结构更加规则,因此更加利于硬件电路实现。相比于传统GII译码算法中的iBM算法,本发明采用的riBM算法有着更短的关键路径,这使得更高速的硬件实现成为可能。riBM算法中多项式系数的高效更新方法首次被提出,他允许之前译码阶段的结果可以在后面译码过程中被复用。本发明只在相应阶段计算需要的高阶嵌套校正子,因此消除了传统算法的冗余操作,免去了对高嵌套阶校正子的存储。本发明为GII码提供了面向高速硬件电路实现的译码算法,使得在例如以太网通信等多种要求译码器有高性能高吞吐率的场景中,GII码可以成为一种有竞争力的编码方案。

    一种优化的大规模天线系统信号检测方法及其硬件架构

    公开(公告)号:CN108540184A

    公开(公告)日:2018-09-14

    申请号:CN201810335737.7

    申请日:2018-04-11

    Applicant: 南京大学

    Inventor: 王中风 曾静 林军

    Abstract: 本发明公开了一种优化的大规模天线系统信号检测方法及其硬件架构。在通信系统中天线数目的增加将导致信号检测的过程和计算变得非常复杂。本发明提出了一种优化的Gaussian-Seidel信号检测算法及其有效实现的硬件架构,可以适用于128×8,64×8,32×8的天线系统。本算法利用泰勒公式可以将传统算法中的除法计算全部转化为简单的乘加操作,在硬件实现上可以有效节省查找表(LUT)资源。而由于利用数据的无关性,对下三角矩阵元素进行分组,从而改变下三角矩阵求逆的方式,重复使用算法前面部分的硬件单元(乘法器和加法器),因此本算法可以进一步减少硬件消耗。结合流水线交织的方法,基于优化后的Gaussian-Seidel信号检测算法的系统的吞吐率提高2倍。本发明利用泰勒公式,分组求逆和流水线交织,从不同方面去节约硬件资源,提高系统的吞吐率,具有一定的创新性。

    一种在大规模天线系统中改善系统复杂度的信号检测方法

    公开(公告)号:CN107888537A

    公开(公告)日:2018-04-06

    申请号:CN201711254630.1

    申请日:2017-11-28

    Applicant: 南京大学

    Inventor: 王中风 曾静 林军

    CPC classification number: H04L27/3483 H04L1/0048 H04L1/005 H04L27/38

    Abstract: 本发明公开了一种在大规模天线系统中改善系统复杂度的信号检测方法。在通信系统中天线数目的增加将导致信号检测的过程和计算变得非常复杂。本发明提出了一种基于信道硬化特性的深度简化的消息传递方法,包括以下步骤:步骤一,系统实数域化,并行计算每个用户的软消息向量,排序确定其最大软消息对应的星座点向量;步骤二:迭代计算,依次计算每个用户的均值消息和软消息向量,更新最大软消息对应的星座点向量,并即时运用于下个用户的消息传递;步骤三:利用固定星座点向量计算均值,并行完成最后一次消息传递,将更新后的星座点向量转化回复数域后作为对信号的估计。本发明利用即时更新和固定点计算相结合的消息传递方式,能够在不影响系统误码率性能的前提下有效降低系统的迭代次数和计算复杂度,具有一定的创新性。

    一种新型快速正则表达式的硬件电路编译方法及编译器实现

    公开(公告)号:CN107193623A

    公开(公告)日:2017-09-22

    申请号:CN201710396009.2

    申请日:2017-05-24

    Applicant: 南京大学

    Inventor: 王中风 金欣 林军

    Abstract: 本发明公开了一种新型的基于非确定有限状态自动机(NFA)的正则表达式硬件电路的编译方法以及编译器的实现。在该编译器框架下,实现了全自动编译过程,通过七段程序段,将功能段各组件功能实现并按整体的功能框架实现连结。本发明提出了一种新型的正则表达式硬件电路转换方法,改进传统MY构造算法,采用链式分析取代深度树状分析,减少重复深度。定义新型的NFA状态记录结构,兼容匹配与否定匹配功能。实现了从正则表达式到硬件电路转换、仿真、测试、综合的过程。综合以上方法可以快速高效的完成正则表达式到RTL的自动编译,能快速自动完成大规模正则匹配引擎的配置。

    超轻量级图片去雾及识别网络模型、图片去雾及识别方法

    公开(公告)号:CN114663292B

    公开(公告)日:2025-04-01

    申请号:CN202011527239.6

    申请日:2020-12-22

    Applicant: 南京大学

    Abstract: 本申请公开了超轻量级图片去雾及识别网络模型,通过该网络模型实现了图片去雾及识别,包括依次相接的双向GAN网络模型以及目标检测网络模型。双向GAN网络模型对雾图进行去雾,输出清晰图至目标检测网络模型进行特征识别处理。目标检测网络模型经过行剪枝重训练,训练过程为对训练集的原始图像进行多次训练,每次训练之前,对原始图像进行预设倍数降采样,每次训练完后,对批归一化层的缩放系数进行排序比较,将其中缩放系数小于预设缩放阈值的通道对应的前一层卷积核去掉,实现剪枝。上述目标检测网络模型在目前微型识别模型的基础上进一步剪枝,极大减小超轻量级图片去雾及识别网络模型的规模,可以部署在算力和功耗资源有限的端侧平台。

    一种三维反卷积加速方法及三维反卷积硬件加速架构

    公开(公告)号:CN114742215B

    公开(公告)日:2025-03-28

    申请号:CN202210393362.6

    申请日:2022-04-14

    Applicant: 南京大学

    Abstract: 本申请提供一种三维反卷积加速方法及三维反卷积硬件加速架构。所述方法包括:利用候选反卷积核的尺寸、预设的变换强度和反卷积步长预先确定候选输入块的尺寸、待运算数据块的尺寸以及输出数据块的尺寸后,分别利用对应的二维预设前处理矩阵和前处理转置矩阵对候选输入块和候选反卷积核进行变换,并将各自得到的前处理数据块进行逐元素相乘,得到待运算数据块,再利用二维预设后处理矩阵和后处理转置矩阵对待运算数据块进行变换,最终得到候选输入块所对应的输出数据块。整个方法利用反卷积计算前后数据之间的关联性,将常规三维反卷积的乘法累加操作转化为前后处理和逐元素乘法,可以减少乘法次数,降低计算复杂度,从而极大地提高了计算效率。

    一种可变形卷积加速器和可变形卷积加速方法

    公开(公告)号:CN113516235B

    公开(公告)日:2024-10-18

    申请号:CN202110788017.8

    申请日:2021-07-13

    Applicant: 南京大学

    Abstract: 本申请涉及卷积神经网络技术领域,提供一种可变形卷积加速器和可变形卷积加速方法。本申请基于FPGA的硬件架构设计,通过取值阶段的映射操作,为卷积计算提供规则化的存取,并设计寄存器阵列来匹配两个阶段的处理速率,并优化存储空间,再根据规则化的输入值,执行卷积操作,得到输出结果。本申请对原始的可变形卷积层进行加速,未对算法进行任何调整,未对偏移量进行大小限制,最大限度地保留原始模型的精度;对于不规则的感受野,采用映射模块将其规则化,并通过寄存器模块的乒乓操作方式将映射模块和卷积模块的运算速率进行匹配,提高了硬件利用率;本申请无需将中间数据存储到片外,降低了对于片外存储结构的访问频率。

Patent Agency Ranking