一种兼容脉动阵列加速器的矢量处理器及处理方法

    公开(公告)号:CN116483774A

    公开(公告)日:2023-07-25

    申请号:CN202310441735.7

    申请日:2023-04-23

    Applicant: 南京大学

    Abstract: 本发明提供的一种兼容脉动阵列加速器的矢量处理器及处理方法,加入了脉动阵列加速器,并基于RISC‑V开源指令集自定义设计了专门的矢量指令调用脉动阵列加速器,用于实现矢量与矢量之间的计算。相比于原有的采用算术逻辑单元每个周期只能进行单个固定宽度的数据进行计算,脉动阵列加速器充分利用了原架构上的存储单元,增大了数据吞吐量,实现较多矢量数据的之间的计算,使得脉动阵列加速器的加速效果得到充分利用,计算利用率得到大幅提高。脉动阵列加速器可以支持多精度及超低比特量化计算,提高矢量计算的效率,同时矢量处理器的并行性和可拓展性可以极大地提高数据计算密度,从而实现算力的有效提升。

    一种基于神经网络的点云数据的处理方法和系统

    公开(公告)号:CN116415641A

    公开(公告)日:2023-07-11

    申请号:CN202310411784.6

    申请日:2023-04-17

    Applicant: 南京大学

    Abstract: 本申请提供了一种基于神经网络的点云数据的处理方法和系统,能够提升对点云数据的处理速度。该方法包括:获取神经网络的权重矩阵;根据权重矩阵的尺寸,确定索引矩阵的尺寸;根据待处理的点云数据中至少一个零值激活位点的位置,以及点云数据中至少一个非零激活位点的位置,确定索引矩阵的内容,索引矩阵包括的每一索引值用于表示点云数据中相应位置的位点的数值是否为零;根据至少一个非零激活位点的位置以及权重矩阵的尺寸,对至少一个非零激活位点重新排列,确定激活值矩阵;根据索引矩阵、激活值矩阵和权重矩阵确定至少一个配对组,每一配对包括非零激活位点和权重值;通过神经网络对至少一个配对组进行卷积运算,获取对点云数据的处理结果。

    一种用于图像像素处理网络的计算装置和方法

    公开(公告)号:CN116363480A

    公开(公告)日:2023-06-30

    申请号:CN202310269842.6

    申请日:2023-03-20

    Applicant: 南京大学

    Abstract: 本发明提供了一种用于图像像素处理网络的计算装置和方法,所述装置包括外部存储、总线控制器、地址控制器、输入缓冲器、权重缓冲器、偏置缓冲器、输出缓冲器、q个块计算单元,本发明设计了提出了一种新颖的硬件架构,该硬件架构能够将各种卷积转换为特定的可变形卷积(deformable convolution)进行计算以灵活的支持多种类型的卷积层,同时设计了对应的计算单元以及全新的解耦计算流程,从而统一了多样的内存访问模式,保证了输入/输出布局格式的一致性。

    一种基于区域近似映射的360度视频硬件渲染方法

    公开(公告)号:CN116206034A

    公开(公告)日:2023-06-02

    申请号:CN202310001982.5

    申请日:2023-01-03

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于区域近似映射的360度视频硬件渲染方法,根据单帧图像空间上映射关系相似性,对输入帧按滑窗区域进行像素点的读取与映射关系的计算。通过将复杂的非线性映射关系简化为线性映射关系来简化映射计算,只需计算中心点的映射关系,滑窗区域内的其余像素点映射关系只需通过简单的移位和加法操作,即可完成滑窗区域内输入帧到输出帧的坐标映射。同时利用线性映射关系的逆运算,完成输入帧和输出帧多对多的映射关系,重构输出帧。基于输入帧和输出帧的映射方案,本发明通过对运算顺序的改变和输出帧的重排,减少输出访存的次数来减少访存的开销。

    一种基于片上网络的众核智能处理器通信架构设计方法

    公开(公告)号:CN116049087A

    公开(公告)日:2023-05-02

    申请号:CN202310109672.5

    申请日:2023-02-14

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于片上网络的众核智能处理器通信架构设计方法,所述众核智能处理器包括资源节点、通信节点、网络接口和网络通路,所述方法包括以下步骤:步骤1,采用支持端到端数据持续传输的虫洞路由器来构成通信节点;步骤2,对网络接口进行优化设计。本发明提出了一种支持支持端到端数据连续(突发)传输的虫洞路由网络架构,能高效传输大规模数据;本发明提出了一种高带宽跨节点Ruche通道,进一步提升网络整体带宽;本发明提出了一种张量指令共享方案,来减轻因不同张量计算核读取相同指令带来的网络负载。

    一种基于LSTM网络的片上微调方法及装置

    公开(公告)号:CN116029332A

    公开(公告)日:2023-04-28

    申请号:CN202310147794.3

    申请日:2023-02-22

    Applicant: 南京大学

    Abstract: 本申请提供一种基于LSTM网络的片上微调方法及装置,方法包括:根据LSTM网络模型的参数,生成计算参数;根据计算参数对输入值和权重值进行细粒度切分,以及生成指令集合;在神经网络处理器NPU读取指令集合;根据指令集合执行NPU片上计算,以生成中间值和LSTM网络输出值;将LSTM网络输出值传输至误差函数,并通过误差函数得到误差值;根据误差值,更新所述权重值以及偏置值;使用更新后的权重值以及偏置值反向传播,以根据指令集合执行新一轮NPU片上计算。本申请提供的方法通过CPU、NPU协同,将LSTM网络中的运算分工,以解决CPU、GPU无法快速高效的计算LSTM网络的问题。

    一种可配置水声信号特征提取方法及装置

    公开(公告)号:CN115950517A

    公开(公告)日:2023-04-11

    申请号:CN202310187600.2

    申请日:2023-03-02

    Applicant: 南京大学

    Inventor: 林军 史可 王中风

    Abstract: 本申请提供一种可配置水声信号特征提取方法及装置,方法包括:获取配置文件以及水声采样信号;对水声采样信号执行预处理以得到第一信号帧集;根据配置文件对第一信号帧集执行快速傅里叶变换FFT以得到水声信号特征;根据配置文件输出水声信号特征。其中,配置文件用于指示待提取的LOFAR谱、STFT功率谱、Mel功率谱和MFCC中的一个或多个水声信号特征组合。装置包括控制模块、FPGA模块和电源模块,FPGA模块中,通过四种特征提取方法共用预处理单元以及FFT单元,不仅实现多种结果的水声信号特征提取,还可根据需要选择合适的水声信号特征,减少硬件资源的使用。而且在运算过程中,减少乘法器的使用,提高运算效率。

    一种支持多精度计算及动态配置的向量处理器及处理方法

    公开(公告)号:CN115936128A

    公开(公告)日:2023-04-07

    申请号:CN202211441900.0

    申请日:2022-11-17

    Applicant: 南京大学

    Abstract: 本发明提供的向量处理器以及数据处理方法,在处理器通道内加入了脉动阵列加速单元,用于实现向量之间的计算。充分利用了原架构上的存储单元,增大了数据吞吐量,实现较多向量数据的之间的计算,使得脉动阵列加速器的加速效果得到充分利用,计算利用率得到大幅提高。脉动阵列加速器可以支持多精度及超低比特量化计算,提高向量计算的效率,同时向量处理器的并行性和可拓展性可以极大地提高数据计算密度,从而实现算力的有效提升。

    基于超奇异同源秘钥封装协议的公钥生成方法和装置

    公开(公告)号:CN111614465B

    公开(公告)日:2023-03-24

    申请号:CN202010412895.5

    申请日:2020-05-15

    Applicant: 南京大学

    Abstract: 本申请提供一种基于超奇异同源秘钥封装协议的公钥生成方法和装置,该方法包括:获取同源质数和椭圆曲线;在所述椭圆曲线上生成第一公共点对和第二公共点对;获取私钥,计算私核;将所述第二公共点对作为高阶同源曲线上的初始像点,以所述椭圆曲线作为初始椭圆曲线,计算获得高阶同源曲线,将高阶同源曲线上的像点作为公钥。本申请通过将输入参数转换为新的数据表示方式,并使用该方式进行相应的有限域算法,可以替代传统的蒙哥马利表示方法,采用本申请实施例提供的新的数据表示方式对SIKE方案进行实现,并且在新的数据表示方式的基础上,能够提高SIKE协议实现的效率。

    一种低复杂度的信号检测方法及系统

    公开(公告)号:CN113691353B

    公开(公告)日:2022-08-02

    申请号:CN202110988508.7

    申请日:2021-08-26

    Applicant: 南京大学

    Abstract: 本申请涉及天线信号检测技术领域,提供一种低复杂度的信号检测方法及系统,所述一种低复杂度的信号检测方法采用分层的更新方式,更有利于高吞吐量硬件架构的设计与实现。同时通过算法变换或近似,有效降低算法以及实现复杂度。在干扰消除过程中,利用星座点特性,提出在更小位宽的操作数上进行运算,有效缩短硬件实现时的关键路径并且降低实现复杂度;在星座匹配过程中,利用二次函数的特性,提出了一种新的可靠性度量方法,使得所需的乘法和加法运算的数量各减少一半;将信号检测方法重构为初始化和迭代步骤,以减少处理周期,并通过近似方法将初始化过程中所需的乘法、加法和排序操作完全消除。

Patent Agency Ranking