-
公开(公告)号:CN116415641A
公开(公告)日:2023-07-11
申请号:CN202310411784.6
申请日:2023-04-17
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06F16/22 , G06F17/16
Abstract: 本申请提供了一种基于神经网络的点云数据的处理方法和系统,能够提升对点云数据的处理速度。该方法包括:获取神经网络的权重矩阵;根据权重矩阵的尺寸,确定索引矩阵的尺寸;根据待处理的点云数据中至少一个零值激活位点的位置,以及点云数据中至少一个非零激活位点的位置,确定索引矩阵的内容,索引矩阵包括的每一索引值用于表示点云数据中相应位置的位点的数值是否为零;根据至少一个非零激活位点的位置以及权重矩阵的尺寸,对至少一个非零激活位点重新排列,确定激活值矩阵;根据索引矩阵、激活值矩阵和权重矩阵确定至少一个配对组,每一配对包括非零激活位点和权重值;通过神经网络对至少一个配对组进行卷积运算,获取对点云数据的处理结果。
-
公开(公告)号:CN116363480A
公开(公告)日:2023-06-30
申请号:CN202310269842.6
申请日:2023-03-20
Applicant: 南京大学
IPC: G06V10/82 , G06N3/063 , G06N3/0464 , G06V10/94 , G06T1/60
Abstract: 本发明提供了一种用于图像像素处理网络的计算装置和方法,所述装置包括外部存储、总线控制器、地址控制器、输入缓冲器、权重缓冲器、偏置缓冲器、输出缓冲器、q个块计算单元,本发明设计了提出了一种新颖的硬件架构,该硬件架构能够将各种卷积转换为特定的可变形卷积(deformable convolution)进行计算以灵活的支持多种类型的卷积层,同时设计了对应的计算单元以及全新的解耦计算流程,从而统一了多样的内存访问模式,保证了输入/输出布局格式的一致性。
-
公开(公告)号:CN116309059A
公开(公告)日:2023-06-23
申请号:CN202310252192.4
申请日:2023-03-16
Applicant: 南京大学
IPC: G06T3/40 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于可变形3D卷积网络的视频超分方法和系统,所述方法包括:将低分辨率LR视频参考帧及其相邻的支持帧输入可变形3D卷积网络,经过可变形3D卷积网络的处理得到一个高分辨率HR视频帧;可变形3D卷积网络的处理包括:浅层特征提取、隐式特征对齐、空时特征融合和高分辨率HR视频帧重建。本发明提出了一种基于先验框的轻量化可变形网络用于视频超分任务,并结合其数据依赖关系和计算特点设计了一种高效的硬件加速器,相比现有的加速方案可以实现更高的视频重建质量,在吞吐率和能效方面提升2.75倍和1.63倍。
-
公开(公告)号:CN116012657A
公开(公告)日:2023-04-25
申请号:CN202310112245.2
申请日:2023-02-14
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82 , G06V10/77 , G06V10/80 , G06N3/063 , G06N3/047 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于神经网络的3D点云数据处理方法及加速器,所述方法包括:向神经网络中输入3D点云数据,输出点云所代表的目标类别;所述神经网络包括特征提取模块LCEM,LBR块,最大池化层,降采样层和全连接层;特征提取模块LCEM对离采样点距离最近的部分点在数据中对应的特征通过卷积层进行融合;LBR块用于特征提取;最大池化层和降采样层输出单一值来降低神经网络的输入尺寸;全连接层用于输出目标对应各个类别的概率,并按照概率最高的类别进行输出。本发明用于处理3D点云分类问题,通过可学习的权重来对邻域特征进行聚合,与Pointnet相比,在将网络参数压缩30倍以上的条件下,仍能保持相同的精度。
-
公开(公告)号:CN114742215B
公开(公告)日:2025-03-28
申请号:CN202210393362.6
申请日:2022-04-14
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06N3/045 , G06N3/0475 , G06N3/094 , G06T1/40 , G06F17/16 , G06F7/544
Abstract: 本申请提供一种三维反卷积加速方法及三维反卷积硬件加速架构。所述方法包括:利用候选反卷积核的尺寸、预设的变换强度和反卷积步长预先确定候选输入块的尺寸、待运算数据块的尺寸以及输出数据块的尺寸后,分别利用对应的二维预设前处理矩阵和前处理转置矩阵对候选输入块和候选反卷积核进行变换,并将各自得到的前处理数据块进行逐元素相乘,得到待运算数据块,再利用二维预设后处理矩阵和后处理转置矩阵对待运算数据块进行变换,最终得到候选输入块所对应的输出数据块。整个方法利用反卷积计算前后数据之间的关联性,将常规三维反卷积的乘法累加操作转化为前后处理和逐元素乘法,可以减少乘法次数,降低计算复杂度,从而极大地提高了计算效率。
-
公开(公告)号:CN113516235B
公开(公告)日:2024-10-18
申请号:CN202110788017.8
申请日:2021-07-13
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及卷积神经网络技术领域,提供一种可变形卷积加速器和可变形卷积加速方法。本申请基于FPGA的硬件架构设计,通过取值阶段的映射操作,为卷积计算提供规则化的存取,并设计寄存器阵列来匹配两个阶段的处理速率,并优化存储空间,再根据规则化的输入值,执行卷积操作,得到输出结果。本申请对原始的可变形卷积层进行加速,未对算法进行任何调整,未对偏移量进行大小限制,最大限度地保留原始模型的精度;对于不规则的感受野,采用映射模块将其规则化,并通过寄存器模块的乒乓操作方式将映射模块和卷积模块的运算速率进行匹配,提高了硬件利用率;本申请无需将中间数据存储到片外,降低了对于片外存储结构的访问频率。
-
公开(公告)号:CN117454932A
公开(公告)日:2024-01-26
申请号:CN202311280100.X
申请日:2023-10-07
Applicant: 南京大学
IPC: G06N3/045 , G06N3/0464 , G06N3/086 , G06N3/0985 , G06N3/063 , G06V10/764 , G06V10/82
Abstract: 本申请提供一种一次性网络架构搜索方法及硬件加速器,所述方法包括:构建超级网络,超级网络由多个层结构组成,获取一次性超级网络训练算法,基于一次性超级网络训练算法,对超级网络进行训练,得到目标深度神经网络;基于目标深度神经网络,利用遗传算法并结合FPGA加速器,使用FPGA感知的网络架构搜索,得到具有最优精度和硬件性能的网络架构,以解决目前基于乘法算子的深度神经网络在执行图像分类任务时的分类精度虽然高,但是在硬件实现时,能耗和面积开销巨大,很难应用到移动设备或者物联网设备中;而基于无乘法算子的深度神经网络虽然在硬件实现时,具有优越的硬件执行效率,但其在完成图像分类任务时,分类精度较低的问题。
-
公开(公告)号:CN112650974B
公开(公告)日:2023-10-13
申请号:CN202011617770.2
申请日:2020-12-30
Applicant: 南京大学
Abstract: 本申请公开了一种高效的转置卷积计算方法,基于预设的转置卷积核的尺寸参数、转置卷积的步长和转换阶数确定转置卷积总体架构,对用于原特征图的提取的滑动窗口进行了设计,根据设计后的滑动窗口提取特征图子图,对所述特征图子图进行转换,转换转置卷积核,并进行计算,对中间子矩阵进行转换,进而获得转置卷积结果。本申请实现在不需要补零的操作下,对原特征图进行转置卷积运算,提高运算效率;提出转换阶数的设置,扩大适用范围,进一步降低计算复杂度。
-
公开(公告)号:CN118018742A
公开(公告)日:2024-05-10
申请号:CN202410047711.8
申请日:2024-01-11
Applicant: 南京大学
IPC: H04N19/172 , H04N19/57 , H04N19/20
Abstract: 本申请公开了一种基于稀疏混合视频压缩网络的视频压缩方法及系统,方法包括:获取待压缩帧视频数据;引入可重参数化的快速卷积层和可重参数化的快速反卷积层,构建混合视频压缩网络模型;基于面向快速算法和剪枝策略对混合视频压缩网络模型进行优化处理;构建神经视频压缩硬件加速器并通过优化后的混合视频压缩网络模型对待压缩帧视频数据进行压缩处理。本申请实施例能够降低计算复杂度的同时保持模型性能,在资源有限设备上实现实时视频压缩,对混合视频压缩网络设计专用的硬件加速器,减少由大尺寸运动和残差特征引起的大量片外数据通信和计算资源开销,进而实现高效的端侧视频压缩。本申请可以广泛应用于视频压缩技术领域。
-
公开(公告)号:CN112650974A
公开(公告)日:2021-04-13
申请号:CN202011617770.2
申请日:2020-12-30
Applicant: 南京大学
Abstract: 本申请公开了一种高效的转置卷积计算方法,基于预设的转置卷积核的尺寸参数、转置卷积的步长和转换阶数确定转置卷积总体架构,对用于原特征图的提取的滑动窗口进行了设计,根据设计后的滑动窗口提取特征图子图,对所述特征图子图进行转换,转换转置卷积核,并进行计算,对中间子矩阵进行转换,进而获得转置卷积结果。本申请实现在不需要补零的操作下,对原特征图进行转置卷积运算,提高运算效率;提出转换阶数的设置,扩大适用范围,进一步降低计算复杂度。
-
-
-
-
-
-
-
-
-