用于卷积神经网络的高效可配置卷积计算加速器

    公开(公告)号:CN108108812A

    公开(公告)日:2018-06-01

    申请号:CN201711414668.0

    申请日:2017-12-20

    Applicant: 南京大学

    CPC classification number: G06N3/063

    Abstract: 本发明公开了用于卷积神经网络的高效可配置卷积计算加速器。该结构通过配置可以高效地实现卷积神经网络中的4种主流尺寸卷积核及12*12以下的所有尺寸的卷积计算,同时显著降低卷积计算的复杂度。本发明先介绍了基于快速FIR算法的硬件结构(FFIR),并在2并行FFIR结构上级联3并行FFIR,设计了6并行FFIR(6P‑FFIR),并使用压缩器对6P‑FFIR进行了优化。基于6P‑FFIR的结构,设计了高效可配置卷积计算加速器(RCC)。相比于传统FIR滤波器,本发明可以在实现四种主流尺寸的卷积计算时节省33%至47%的乘法计算。本架构可以节省大量的硬件面积和功耗,很适合应用在物联网、嵌入式芯片等对功耗要求严苛的场景中,同时可以运用在需要多种尺寸的卷积计算的场合,并提高系统的有效吞吐量。

    一种基于6并行快速有限冲激响应滤波器级联结构的尺寸可配置卷积硬件实现

    公开(公告)号:CN107645287A

    公开(公告)日:2018-01-30

    申请号:CN201710396331.5

    申请日:2017-05-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于6并行快速有限冲激响应滤波器级联结构的尺寸可配置卷积硬件实现,该结构可以完成3*3、5*5、7*7和11*11四种尺寸的卷积计算,降低卷积计算复杂度,并在6并行结构下提高吞吐率。本发明先介绍了2并行与3并行快速FIR滤波器算法结构,然后根据2并行结构级联3并行子结构的方式产生6并行快速FIR滤波器算法(FFA)。在6并行FFA基础上,运用可配置子滤波器,设计了可以完成3*3、5*5、7*7和11*11四种尺寸卷积计算的快速卷积硬件架构。相比于传统的6并行FIR滤波器,在相同的吞吐率条件下,本算法可以在增加一些加法操作基础上同时节省50%的乘法操作。而由于在硬件实现上,乘法器的面积和功耗远大于加法器,因此本架构可以节省50%的面积和功耗。可以将本发明运用在需要多种典型尺寸(3*3、5*5、7*7和11*11)卷积计算的场合,例如卷积神经网络、视频图像处理、无线通信等,可以提高原始滤波器的有效吞吐量,或者降低原始滤波器的功耗。

Patent Agency Ranking