用于Transformer类模型训练的矩阵乘法器

    公开(公告)号:CN116738135A

    公开(公告)日:2023-09-12

    申请号:CN202310772645.6

    申请日:2023-06-28

    Applicant: 南京大学

    Abstract: 本发明提供了用于Transformer类模型训练的矩阵乘法器,包括M行N列个脉动阵列,所述脉动阵列是二维的,通过R行C列个相互连接的处理单元PE构成,每个处理单元PE均包括1个乘法器、1个加法器、2个内部寄存器、1个左侧多路选择器,以及2个右侧多路选择器;所述左侧多路选择器能够选择乘法器的输入是来自处理单元PE外部或是保持上一周期的输入,当选择保持上一周期的输入时,处理单元PE以权重保持WS数据流工作;本发明设计了一种可重构的处理单元(PE),可以在训练的不同阶段和不同周期灵活地支持多种数据流,并根据需求选择数据来源。

    一种应用于软件安全执行的硬件监测器方法及装置

    公开(公告)号:CN116502224A

    公开(公告)日:2023-07-28

    申请号:CN202310474575.6

    申请日:2023-04-27

    Applicant: 南京大学

    Abstract: 本发明提供了一种应用于软件安全执行的硬件监测器方法及装置,所述装置包括经过修改的核心、信息选择器、专用乱序架构、并行比较器、监测器寄存器、数据结构、高速缓存器、规则旁路缓存、先进先出缓存器FIFO;所述专用乱序架构用于提升性能;所述并行比较器用于降低监测延迟;所述数据结构用于记录包含安全规则的安全规则表;所述规则旁路缓存用于削减冗余的监测操作;本发明具有高灵活性,能实现更广范围的安全策略,本发明性能开销和专用硬件监测器相近,得益于高灵活性和高性能,本发明能够实现高计算需求的安全策略。

    一种降低存储资源的极化码编码方法与装置

    公开(公告)号:CN116455409A

    公开(公告)日:2023-07-18

    申请号:CN202310440329.9

    申请日:2023-04-23

    Applicant: 南京大学

    Abstract: 本发明提供了一种降低存储资源的极化码编码方法与装置,所述方法包括:只使用一块内存,采用地址二级映射进行极化码编码,所述采用地址二级映射进行极化码编码是指:在进行一列编码时,从内存中一地址读取该列的输入数据,编码完成后再写回到内存的原地址中,读地址和写地址相同。本发明在地址二级映射方案基础上构造了极化码编码装置,与传统编码装置相比,可有效降低硬件资源消耗,此处专指存储单元所需面积减少一半;任意码长的极化码,只要其母码长度N、计算单元并行度P均为2的幂次,都可采用本发明中的地址二级映射方案来实现极化码编码装置。

    一种基于数据压缩的图像超分网络鲁棒性提升装置

    公开(公告)号:CN116128737A

    公开(公告)日:2023-05-16

    申请号:CN202310420888.3

    申请日:2023-04-19

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于数据压缩的图像超分网络鲁棒性提升装置,包括压缩模块和解压缩模块;所述压缩模块包括特征图张量切块与重排模块、二维离散余弦变换模块、量化模块、随机掩膜滤波器模块、压缩编码模块;所述特征图张量切块与重排模块用于为空间二维分块,分块后的数据输入至同等尺寸的二维离散余弦变换模块做变换处理;所述二维离散余弦变换模块用于将数据从特征图空间转换到特征图频率空间;本发明利用特定压缩方案处理深度神经网络传输的特征图,在图像超分网络上可提高其鲁棒性。实现神经网络在端侧设备部署时,在提升模型安全性能同时,缓解特征图传输带来的带宽压力,降低传输功耗。

    一种神经网络处理单元的特征图处理方法及装置

    公开(公告)号:CN115908844A

    公开(公告)日:2023-04-04

    申请号:CN202211394271.0

    申请日:2022-11-08

    Applicant: 南京大学

    Abstract: 本申请公开了一种神经网络处理单元的特征图处理方法和装置,该装置用于执行该方法,该方法包括特征图压缩过程和特征图还原过程,特征图压缩过程包括获取特征图切块、线性正交变换、定点量化和压缩编码处理步骤,从而获取待处理的特征图的压缩数据,压缩数据存入内存单元中,这样计算机系统便于直接与内存单元中压缩数据进行传输交互,有利于减少数据处理量,降低硬件能耗。当压缩数据被计算机系统调取使用完成后,需要将特征图还原,得到还原数据,此过程为上述方法的特征图还原过程,特征图还原过程包括压缩解码处理、定点量化的逆变换、线性正交变换的逆变换、特征图切块还原,从而获取特征图的原始数据,便于进行其他运算。

    一种EII码译码性能的预测方法及系统

    公开(公告)号:CN115827309A

    公开(公告)日:2023-03-21

    申请号:CN202211394025.5

    申请日:2022-11-08

    Applicant: 南京大学

    Abstract: 本申请提供一种EII码译码性能的预测方法及系统,预测方法包括:分类统计分布式存储器系统中行译码器和列译码器的可能译码结果;建立第i阶段译码器的系统模型;获取分布式存储器系统中每个地址存储条目的错误概率;获取译码器在各阶段的阶段FER;根据所有的阶段FER获取译码器的最终FER;获取分布式存储器系统中每个地址存储条目的平均错误比特数,以及错误行平均数和错误符号平均数;获取译码器各阶段的阶段BER以及最终BER。如此,本方法可以在不需要仿真的情况下得到EII码在某RawBER下译码各阶段及译码结束的FER及BER,促进了码字构造,节省了大量的仿真时间与资源开销。

    一种应用于卷积神经网络训练的可重构硬件加速器

    公开(公告)号:CN115700605A

    公开(公告)日:2023-02-07

    申请号:CN202110874007.6

    申请日:2021-07-30

    Applicant: 南京大学

    Abstract: 本申请提供一种应用于卷积神经网络训练的可重构硬件加速器。该可重构硬件加速器包括:缓存架构、运算处理阵列、功能模块和主控制器,缓存架构包括输入缓存架构和输出缓存架构,运算处理阵列包括多个以二维数组方式排列的运算处理模块,在使用时利用输入缓存架构按预设数据分组方式对待运算数据进行重新排列和分组后,发送给运算处理模块进行处理,并通过在不同的训练阶段动态调整运算处理阵列中的每个运算处理模块的内部数据连接方式,以使运算处理模块按移动步长进行与候选训练阶段相对应的卷积运算处理。整个装置的计算方式较为灵活,可并行处理多通道运算,而且仅采用硬件架构即可满足不同训练阶段的计算需求,因而具有较高的模型训练效率。

    一种多项式乘法的加速方法及装置

    公开(公告)号:CN115587274A

    公开(公告)日:2023-01-10

    申请号:CN202211245657.5

    申请日:2022-10-12

    Applicant: 南京大学

    Abstract: 本发明提供了一种多项式乘法的加速方法及装置,所述装置包括m个预处理外部组块、一个输入分拣模块、k个预处理内部组块、一组中心乘法器阵列、k个后处理内部组块、一个输出整合模块、m个后处理外部组块,本发明方法与装置实现了对高位宽多项式乘法器的进一步简化,使N项多项式乘法运算的乘法复杂度进一步降低,硬件面积与传统多项式乘法算法之比可以小于

    基于Transformer网络的文本处理方法及系统

    公开(公告)号:CN115455979A

    公开(公告)日:2022-12-09

    申请号:CN202211165132.0

    申请日:2022-09-23

    Applicant: 南京大学

    Abstract: 本申请涉及自然语言处理技术领域,提供一种基于Transformer网络的文本处理方法及系统,在当前次编码计算后,更新一个数据批内每条输入文本的已编码次数,并分别判断每条输入文本是否可以提前退出,以及,分别判断每条输入文本的已编码次数是否达到预设的最大计算层数,如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则用待处理文本更新对应的输入文本,对数据批内的各输入条文本进行下一次编码计算,其中,每次编码计算均采用相同参数的编码器。基于编码器参数的复用,以及对输入文本的循环填充,使得GPU上模型同时处理的文本数量恒定在数据批大小,有效兼容提前退出机制和数据批大小大于1。

    数据表示方法、张量量化方法及乘加计算装置

    公开(公告)号:CN115407966A

    公开(公告)日:2022-11-29

    申请号:CN202110594512.5

    申请日:2021-05-28

    Applicant: 南京大学

    Inventor: 王中风 鲁金铭

    Abstract: 本申请提供一种数据表示方法、张量量化方法及乘加计算装置。所述数据表示方法包括:获取目标数据,所述目标数据包括标志位和有符号数,所述标志位和所述有符号数的位宽之和等于预设位宽,所述有符号数包括高位和低位;获取所述有符号数的分割位;根据标志位和高位中的各个数值,确定目标数据的所属分段;根据目标数据的所属分段,对所述目标数据进行表示。可以推断,一个k‑bit的PINT所能表示的动态范围为[‑22(k‑2),22(k‑2)],相当于一个(2k‑3)‑bit的INT格式所能表示的范围。相比于FP32,在计算时的复杂度降低,且不影响模型精度。

Patent Agency Ranking