-
公开(公告)号:CN118940812A
公开(公告)日:2024-11-12
申请号:CN202410967413.0
申请日:2024-07-18
Applicant: 华中科技大学
Abstract: 本发明属于图像处理相关技术领域,其公开了一种基于神经网络特征提取的硬件加速方法及系统,系统包括:按流水线方式运行的编码卷积处理器、共享特征图缓存、特征点检测结构、特征图像素点选择器和描述符生成结构;编码卷积处理器对输入图像进行卷积并将输出存储至共享特征图缓存;特征点检测结构通过卷积及后处理生成特征点;特征图像素点选择器将根据特征点信息生成像素区域;描述符生成结构从共享特征图中仅读取特征点相关像素区域数据并计算描述符。端到端全硬件加速设计避免外存访问,流水线设计提高运算效率,可提前得到特征点像素区域,通过特征图像素点选择器,描述符生成结构仅对像素区域进行处理,由此可以减小资源开销,提升系统能效。
-
公开(公告)号:CN114973176B
公开(公告)日:2024-07-05
申请号:CN202210604616.4
申请日:2022-05-30
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于尺度不变特征转换算法的硬件加速方法及系统,属于算法的硬件加速设计领域。相比于现有的SIFT硬件加速系统,本发明提出了一种新颖的全并行SIFT加速系统架构。该架构主要包括关键点检测和描述符产生两个部分,两个部分之间的四个缓冲器进行乒乓操作来提高系统处理速度。在关键点检测部分,首先并行计算多层的高斯金字塔和高斯差分金字塔,然后通过并行计算,得到关键点和梯度幅值和方向。在描述符产生部分,本发明提出了基于圆域的关键点邻域划分策略,实现了主方向计算模块和描述符产生模块的并行化计算,最后通过描述符重排和降维模块得到最后的输出。从而,实现全并行,能够提高处理帧率。
-
公开(公告)号:CN116012882A
公开(公告)日:2023-04-25
申请号:CN202310013765.8
申请日:2023-01-05
Applicant: 华中科技大学
IPC: G06V40/10 , G06V10/56 , G06V10/764 , G06V10/82 , G06N3/082
Abstract: 本发明公开了一种基于HOG‑SVM的行人检测加速系统,属于计算机视觉技术领域和硬件加速设计技术领域。本发明对SVM分类器中的乘累加计算任务和硬件加速电路进行了数学抽象和建模,对乘累加阵列的设计指标进行了参数化,并将阵列的尺寸表达为目标函数。通过对设计参数进行遍历搜索来求解目标函数的最优值,即最小的乘累加阵列尺寸。采用本发明提出的乘累加阵列尺寸优化方法,可以在不降低阵列计算吞吐率的情况下,将所需PE单元的总数由传统方法的105降低到60。本发明采用端到端全流水硬件系统既降低了整个行人检测加速器的处理延迟,实现了高帧率行人检测,也减少了数据搬移所需的功耗,提高了行人检测的能效。
-
公开(公告)号:CN114973176A
公开(公告)日:2022-08-30
申请号:CN202210604616.4
申请日:2022-05-30
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于尺度不变特征转换算法的硬件加速方法及系统,属于算法的硬件加速设计领域。相比于现有的SIFT硬件加速系统,本发明提出了一种新颖的全并行SIFT加速系统架构。该架构主要包括关键点检测和描述符产生两个部分,两个部分之间的四个缓冲器进行乒乓操作来提高系统处理速度。在关键点检测部分,首先并行计算多层的高斯金字塔和高斯差分金字塔,然后通过并行计算,得到关键点和梯度幅值和方向。在描述符产生部分,本发明提出了基于圆域的关键点邻域划分策略,实现了主方向计算模块和描述符产生模块的并行化计算,最后通过描述符重排和降维模块得到最后的输出。从而,实现全并行,能够提高处理帧率。
-
公开(公告)号:CN119919275A
公开(公告)日:2025-05-02
申请号:CN202411977710.X
申请日:2024-12-31
Applicant: 华中科技大学
IPC: G06T1/20 , G06T1/40 , G06T1/60 , G06T7/73 , G06T7/246 , G06N3/049 , G06N3/063 , G06F9/50 , G06F15/177 , G06F15/78
Abstract: 本发明属于硬件加速设计相关技术领域,具体涉及一种类脑SLAM算法的动态可重构硬件加速方法及加速器,包括:配置动态可重构双模式处理单元簇DR‑DPC,用于加速执行类脑SLAM算法前端的特征提取、视觉里程计和回环检测三项任务中的累加计算或差分累加计算步骤,由M*N个双模式处理单元组成;所有处理单元并行运行;在执行特征提取的差分计算时,控制DR‑DPC中处理单元在单端口累加模式下运行;在并行执行视觉里程计和回环检测两项任务的差分累加计算时,实时对DR‑DPC中的处理单元组进行任务分配,实现工作负载平衡,控制DR‑DPC中处理单元在双端口差分累加模式下运行。本发明能提高类脑SLAM算法的计算能效和硬件利用率,同时降低资源开销。
-
公开(公告)号:CN116483773A
公开(公告)日:2023-07-25
申请号:CN202310370224.0
申请日:2023-04-07
Applicant: 华中科技大学
IPC: G06F15/78 , G11C11/4094 , G11C11/408 , G11C11/4091 , G11C11/4099 , G06F7/78
Abstract: 本发明公开了一种基于转置DRAM单元的存内计算电路和装置,属于集成电路技术领域。存内计算电路包括:N行N列DRAM单元构成存储器阵列、N个转置使能开关组和N个灵敏放大器SA电路;同一列上的DRAM单元共享同一条写字线WWL和列读字线Col‑RWL;同一行上的DRAM单元共享同一条写位线WBL和列读位线Col‑RBL;在转置的使用模式下,Col‑RWL被重命名为行读位线Row‑RBL,Col‑RBL被重命名为行读字线Row‑RWL。基于DRAM单元的存内计算装置包括:控制器、外围计算电路和存内计算电路,用于深度神经网络中全连接层和卷积层两种关键网络结构的存内计算硬件实现,填补了基于DRAM电路阵列实现矩阵原位转置的技术空白,支持片上训练过程中的权重复用和并行计算。
-
-
-
-
-