基于同源曲线的后量子密码学的高速模乘器及其模乘方法

    公开(公告)号:CN110908635A

    公开(公告)日:2020-03-24

    申请号:CN201911073701.7

    申请日:2019-11-04

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于同源曲线的后量子密码学的高吞吐率模乘器及其相应的模乘方法。所述模乘器主要包括乘法模块,约减模块以及后处理模块。其中,乘法模块通过Karatsuba等方法减少乘法器数量。约减模块使用资源消耗更少的常数乘法器和并行化策略。后处理模块通过对加法器进行并行化处理同时提前计算好常数参数进行优化。因此,综上所述,本发明的模乘器具有高吞吐率的特点。另外,本发明公开的模乘方法为基于非常规基数的素数形式,使用优化的巴雷特约减方法,比传统的蒙哥马利表示方法有更快的计算速度。综上,本发明为目前的基于同源曲线的后量子加密学的加密方案提供了一种有效的模乘器架构和模乘方法。

    一种适用于5G LDPC码的高效译码器架构

    公开(公告)号:CN110808742A

    公开(公告)日:2020-02-18

    申请号:CN201911161918.3

    申请日:2019-11-22

    Applicant: 南京大学

    Abstract: 本发明首次公开了一种通用于5G LDPC码的高吞吐率、低复杂度的译码器架构。首先,利用5G LDPC码基矩阵的部分正交性,采用层合并技术减少了时钟周期数,同时降低了校验信息存储器的面积消耗。其次,由于5G LDPC的行重非常不规则,采用了一种分布式存储结构来降低存储资源消耗。最后,为解决大规模读取和写入互联网络带来的高延迟、高复杂度问题,采用移位结构来实现软消息存储器,大大降低了互联网络的输入输出个数。此外,还在互联网络中应用了信息重排列来优化其内部架构。相较于常规的设计,本发明所公开的译码器的面积大大降低,并且能够提供更高的吞吐率,将吞吐率-面积比提升至原来的2.68倍。

    一种基于Smith-Waterman算法的并行处理硬件加速单元

    公开(公告)号:CN110471642A

    公开(公告)日:2019-11-19

    申请号:CN201810453228.4

    申请日:2018-05-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Smith-Waterman算法的并行处理硬件加速单元。本并行加速单元由三个模块组成,匹配模块比较两个基因字符串的输入得到相似得分值x(i,j);超前计算模块利用相似得分值计算得到超前计算项;计算得分模块通过传入的初始值和超前计算项同时计算输出16个得分值。将此并行处理单元组成脉动阵列结构,可以提高并行度,非常高效地处理两个基因序列的比对得到得分矩阵用以回溯找到最优的比对模型,提高了处理速度,减少了运算时间。

    一种硬件友好的高精度浮点超越函数计算系统

    公开(公告)号:CN119201036A

    公开(公告)日:2024-12-27

    申请号:CN202411237875.3

    申请日:2024-09-04

    Applicant: 南京大学

    Abstract: 本申请提供一种硬件友好的高精度浮点超越函数计算系统,系统包括参数获取模块,参数获取模块被配置为获取待计算的单精度浮点参数和计算函数选择信号;超越函数预处理模块,超越函数预处理模块被配置为对单精度浮点参数分别进行预处理,并输出目标预处理结果;计算模块,计算模块被配置为选取目标预处理结果,根据目标预处理结果进行计算,得到目标多项式计算结果;前导零检测模块,前导零检测模块被配置为对目标多项式计算结果进行前导零检测,得到检测结果;超越函数后处理模块,超越函数后处理模块被配置为对检测结果进行规范化处理,并输出对应超越函数的目标结果。本申请通过该系统解决了现有超越函数计算方案效率低下且计算周期长的问题。

    一种精准局部密集化的稀疏卷积加速器

    公开(公告)号:CN119089958A

    公开(公告)日:2024-12-06

    申请号:CN202411318424.2

    申请日:2024-09-20

    Applicant: 南京大学

    Abstract: 本申请提供一种精准局部密集化的稀疏卷积加速器,包括数据装载模块,数据装载模块被配置为从神经网络中获取点云数据和权重数据;点云数据包括对应不同权重的图像坐标数据和图像特征数据;权重数据对应不同的权重;数据分块模块,数据分块模块被配置为对点云数据和权重数据进行分块处理,得到若干个分块;子图生成模块,子图生成模块被配置为对分块分别进行偏移处理和乘加树处理,得到对应每个权重的特征子图;核内累加模块,核内累加模块被配置为对所述特征子图进行划分,并进行卷积核累加处理,得到目标特征图。本申请通过上述加速器解决了现有稀疏卷积处理技术效率低下的问题。

    基于RISC-V的向量处理器及混合数据流方法

    公开(公告)号:CN118586453A

    公开(公告)日:2024-09-03

    申请号:CN202410762665.X

    申请日:2024-06-13

    Applicant: 南京大学

    Abstract: 本申请提供一种基于RISC‑V的向量处理器及混合数据流方法,所述向量处理器包括:控制模块、加载存储模块、至少一个可拓展模块;可拓展模块包括:脉动阵列单元;控制模块被配置为:接收并解码向量指令,生成解码信息;将向量指令和解码信息发送至可拓展模块;加载存储模块被配置为:获取并存储计算数据,并根据向量指令将对应的计算数据分配至可拓展模块;计算数据包括:输入数据和权重数据;可拓展模块被配置为:基于计算数据,根据数据流映射信息,生成目标计算结果;以解决目前的深度神经网络架构限制了依赖于固定数据流进行推理的加速器在执行完整深度神经网络运算过程中的效率,导致深度神经网络整体的计算性能和能效较低的问题。

    基于快速傅里叶变换的并行计算系统及方法

    公开(公告)号:CN118312709A

    公开(公告)日:2024-07-09

    申请号:CN202410369075.0

    申请日:2024-03-28

    Applicant: 南京大学

    Inventor: 林军 陈颖

    Abstract: 本申请提供一种基于快速傅里叶变换的并行计算系统及方法,系统包括:读入模块、配置模块、PE计算模块、地址生成模块、频谱计算模块;读入模块用于读入待计算数据;地址生成模块用于生成待计算数据的读地址和写地址;配置模块包括的多个配置寄存器用于对不同点数的待计算数据执行不同模式的STFT功率谱计算模式、LOFAR谱计算模式、CWT谱计算模式及FFT计算模式;PE计算模块用于对计算数据执行多级蝶形运算得到中间结果后,对中间结果执行地址重排,频谱计算模块根据重排后的中间结果得到频谱结果。本申请提供的系统可通过配置实现不同点数的STFT、LOFAR和CWT三种水声信号计算模式,得到频谱结果。

    一种栅压自举开关电路
    119.
    发明公开

    公开(公告)号:CN117879569A

    公开(公告)日:2024-04-12

    申请号:CN202410039709.6

    申请日:2024-01-10

    Applicant: 南京大学

    Inventor: 林军 张梦莹

    Abstract: 本发明公开了一种栅压自举开关电路,包括:控制时钟电路、主自举开关电路、虚拟开关电路和副自举开关电路,控制时钟电路同时和主自举开关电路和副自举开关电路连接,同时主自举开关电路和副自举开关电路连接,副自举开关电路输出副自举信号电平,为主自举开关电路中的寄生电容供电,同时在电路输出端接入一个同样大小的虚拟开关电路。本发明通过对寄生电容的充电,使得回路的建立时间大幅缩短,同时接入的同样大小虚拟开关电路,可以生成与输出端等幅相反的纹波电压,消除主开关管关断后,采样电容上存在的具有一定大小波动的电压。

    一种支持任意尺寸与形状卷积核计算的架构

    公开(公告)号:CN117808050A

    公开(公告)日:2024-04-02

    申请号:CN202410036818.2

    申请日:2024-01-10

    Applicant: 南京大学

    Abstract: 本发明提供一种支持任意尺寸与形状卷积核计算的架构,包括用于获取、预存和拼接输入像素数据,以及获取权重数据和层参数的输入数据准备部分,所述权重数据可能涉及将卷积核离线分割或拆分成若干子核;用于对输入数据准备部分获取的像素数据进行灵活排列的Z字形数据流数据准备部分,其中横向数据移动模块与纵向数据移动模块互相解耦,使架构具有支持任意尺寸与形状卷积核计算的灵活性,而不会产生冗余的计算和数据传输;用于根据层参数将目标像素数据与目标权重数据在乘累加阵列中进行卷积的计算部分;用于对输出像素进行排列和存储的输出数据重排与存储部分;用于对上述所有部分进行控制以实现逐层计算的控制部分,尤其是对不同子核计算的控制。

Patent Agency Ranking