-
公开(公告)号:CN113486298B
公开(公告)日:2023-10-17
申请号:CN202110721961.1
申请日:2021-06-28
Applicant: 南京大学
IPC: G06F17/16 , G06N3/082 , G06N3/0495
Abstract: 本申请实施例公开了基于Transformer神经网络的模型压缩方法、矩阵乘法模块,在该方法中,根据预设的第一参数,对原始权重矩阵中的每行权重进行分组,得到多个权重组,然后根据预设的第二参数,对每个权重组进行剪枝,最后获取非零权重矩阵以及二进制掩膜。该方法将权重的每行分为多组,各个权重组的非零元素数量一致,后续在计算流程中,并行计算的非零权重矩阵能够保持相同的计算时间,以此达到负载均衡的目的,具有较好的加速效果。
-
公开(公告)号:CN115225202B
公开(公告)日:2023-10-13
申请号:CN202210192714.1
申请日:2022-03-01
Applicant: 南京大学
IPC: H04L1/00
Abstract: 本申请利用传输数据经过调制后,每个传输符号的低位比高位更容易出错的特性,提出一种外码采用RS码,内码运用多层编码思想的级联编码及译码方法。所述级联编码方法的外码采用RS码,对RS码字数据进行交织,将交织后的数据分成预设数量组的比特数据,对每一组比特数据采用不同码率的码字进行编码,得到预设数量组的多层子码字数据,进行调制得到调制数据;其中每组多层子码字数据的长度一致,分别对应调制数据中的不同位。所述级联编码方法在码率一定的情况下,使用较短的码长实现较高的编码增益;级联译码使用低位译码结果辅助对信道接收数据中的高位数据进行解调译码,获得较高的译码性能,满足400Gb/s以上以太网的译码性能需求。
-
公开(公告)号:CN116720472A
公开(公告)日:2023-09-08
申请号:CN202310708804.6
申请日:2023-06-15
Applicant: 南京大学
IPC: G06F30/392 , G06F30/394 , G06F17/11
Abstract: 本发明提供了一种基于混合整形规划的ASIC布局优化方法,包括:步骤1,对ASIC版图中的布局问题进行数学建模;步骤2,对每个网络的线长以轻量级RST模型建立MIP方程;步骤3,利用整形变量对非线性方程线性处理;步骤4,引入单流量算法,确保RST线长模型的正确性。本发明提出的方案通过对ASIC标准单元位置的建模和对其网络的RST的精确建模,把布局的条件转化成线性规划问题的约束,把减少布局的线长转化成线性规划问题的目标函数,在线性规划方程求解过程中,不断减少版图的线长,即不断优化初始版图的布局。该方案同时实现了集成电路设计中布局和布线两大难题。
-
公开(公告)号:CN116483774A
公开(公告)日:2023-07-25
申请号:CN202310441735.7
申请日:2023-04-23
Applicant: 南京大学
Abstract: 本发明提供的一种兼容脉动阵列加速器的矢量处理器及处理方法,加入了脉动阵列加速器,并基于RISC‑V开源指令集自定义设计了专门的矢量指令调用脉动阵列加速器,用于实现矢量与矢量之间的计算。相比于原有的采用算术逻辑单元每个周期只能进行单个固定宽度的数据进行计算,脉动阵列加速器充分利用了原架构上的存储单元,增大了数据吞吐量,实现较多矢量数据的之间的计算,使得脉动阵列加速器的加速效果得到充分利用,计算利用率得到大幅提高。脉动阵列加速器可以支持多精度及超低比特量化计算,提高矢量计算的效率,同时矢量处理器的并行性和可拓展性可以极大地提高数据计算密度,从而实现算力的有效提升。
-
公开(公告)号:CN116415641A
公开(公告)日:2023-07-11
申请号:CN202310411784.6
申请日:2023-04-17
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06F16/22 , G06F17/16
Abstract: 本申请提供了一种基于神经网络的点云数据的处理方法和系统,能够提升对点云数据的处理速度。该方法包括:获取神经网络的权重矩阵;根据权重矩阵的尺寸,确定索引矩阵的尺寸;根据待处理的点云数据中至少一个零值激活位点的位置,以及点云数据中至少一个非零激活位点的位置,确定索引矩阵的内容,索引矩阵包括的每一索引值用于表示点云数据中相应位置的位点的数值是否为零;根据至少一个非零激活位点的位置以及权重矩阵的尺寸,对至少一个非零激活位点重新排列,确定激活值矩阵;根据索引矩阵、激活值矩阵和权重矩阵确定至少一个配对组,每一配对包括非零激活位点和权重值;通过神经网络对至少一个配对组进行卷积运算,获取对点云数据的处理结果。
-
公开(公告)号:CN116363480A
公开(公告)日:2023-06-30
申请号:CN202310269842.6
申请日:2023-03-20
Applicant: 南京大学
IPC: G06V10/82 , G06N3/063 , G06N3/0464 , G06V10/94 , G06T1/60
Abstract: 本发明提供了一种用于图像像素处理网络的计算装置和方法,所述装置包括外部存储、总线控制器、地址控制器、输入缓冲器、权重缓冲器、偏置缓冲器、输出缓冲器、q个块计算单元,本发明设计了提出了一种新颖的硬件架构,该硬件架构能够将各种卷积转换为特定的可变形卷积(deformable convolution)进行计算以灵活的支持多种类型的卷积层,同时设计了对应的计算单元以及全新的解耦计算流程,从而统一了多样的内存访问模式,保证了输入/输出布局格式的一致性。
-
公开(公告)号:CN116309059A
公开(公告)日:2023-06-23
申请号:CN202310252192.4
申请日:2023-03-16
Applicant: 南京大学
IPC: G06T3/40 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于可变形3D卷积网络的视频超分方法和系统,所述方法包括:将低分辨率LR视频参考帧及其相邻的支持帧输入可变形3D卷积网络,经过可变形3D卷积网络的处理得到一个高分辨率HR视频帧;可变形3D卷积网络的处理包括:浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。本发明提出了一种基于先验框的轻量化可变形网络用于视频超分任务,并结合其数据依赖关系和计算特点设计了一种高效的硬件加速器,相比现有的加速方案可以实现更高的视频重建质量,在吞吐率和能效方面提升2.75倍和1.63倍。
-
公开(公告)号:CN116206034A
公开(公告)日:2023-06-02
申请号:CN202310001982.5
申请日:2023-01-03
Applicant: 南京大学
Abstract: 本发明提供了一种基于区域近似映射的360度视频硬件渲染方法,根据单帧图像空间上映射关系相似性,对输入帧按滑窗区域进行像素点的读取与映射关系的计算。通过将复杂的非线性映射关系简化为线性映射关系来简化映射计算,只需计算中心点的映射关系,滑窗区域内的其余像素点映射关系只需通过简单的移位和加法操作,即可完成滑窗区域内输入帧到输出帧的坐标映射。同时利用线性映射关系的逆运算,完成输入帧和输出帧多对多的映射关系,重构输出帧。基于输入帧和输出帧的映射方案,本发明通过对运算顺序的改变和输出帧的重排,减少输出访存的次数来减少访存的开销。
-
公开(公告)号:CN116049087A
公开(公告)日:2023-05-02
申请号:CN202310109672.5
申请日:2023-02-14
Applicant: 南京大学
IPC: G06F15/173 , G06F9/54
Abstract: 本发明提供了一种基于片上网络的众核智能处理器通信架构设计方法,所述众核智能处理器包括资源节点、通信节点、网络接口和网络通路,所述方法包括以下步骤:步骤1,采用支持端到端数据持续传输的虫洞路由器来构成通信节点;步骤2,对网络接口进行优化设计。本发明提出了一种支持支持端到端数据连续(突发)传输的虫洞路由网络架构,能高效传输大规模数据;本发明提出了一种高带宽跨节点Ruche通道,进一步提升网络整体带宽;本发明提出了一种张量指令共享方案,来减轻因不同张量计算核读取相同指令带来的网络负载。
-
公开(公告)号:CN116029332A
公开(公告)日:2023-04-28
申请号:CN202310147794.3
申请日:2023-02-22
Applicant: 南京大学
IPC: G06N3/0442 , G06N3/048 , G06N3/084 , G06N3/063
Abstract: 本申请提供一种基于LSTM网络的片上微调方法及装置,方法包括:根据LSTM网络模型的参数,生成计算参数;根据计算参数对输入值和权重值进行细粒度切分,以及生成指令集合;在神经网络处理器NPU读取指令集合;根据指令集合执行NPU片上计算,以生成中间值和LSTM网络输出值;将LSTM网络输出值传输至误差函数,并通过误差函数得到误差值;根据误差值,更新所述权重值以及偏置值;使用更新后的权重值以及偏置值反向传播,以根据指令集合执行新一轮NPU片上计算。本申请提供的方法通过CPU、NPU协同,将LSTM网络中的运算分工,以解决CPU、GPU无法快速高效的计算LSTM网络的问题。
-
-
-
-
-
-
-
-
-