一种基于FPGA的稠密连接神经网络的实现方法

    公开(公告)号:CN109086879B

    公开(公告)日:2020-06-16

    申请号:CN201810729915.4

    申请日:2018-07-05

    Abstract: 本发明公开一种基于FPGA的稠密连接神经网络的实现方法,步骤是:将整个卷积神经网络划分为多个稠密连接块;利用FPGA上的资源设计卷积运算单元,进而设计FPGA端卷积运算模块;设计神经网络整体的数据收发逻辑,包括七个部分:Input Feature Map、Send Buffer、卷积运算模块、Receive Buffer、Output Feature Map、Dense Block Buffer、Max Buffer;根据稠密连接神经网络各层输入输出数据量的大小,设计Input Feature Map、Output Feature Map、Dense Block Buffer所需的存储区域大小,根据Block大小和卷积运算单元的并行度设计Send Buffer、Receive Buffer所需存储区域的大小;根据稠密连接神经网络各层的特点设计其数据收发逻辑。此种方法可在保证算法准确度的前提下降低网络各层宽度,减少参数数量,提高数据传输效率,提升神经网络的运行速度。

    一种基于FPGA的计算优化的卷积神经网络加速器

    公开(公告)号:CN109598338A

    公开(公告)日:2019-04-09

    申请号:CN201811493592.X

    申请日:2018-12-07

    Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。

    一种基于FPGA的通用卷积神经网络加速器

    公开(公告)号:CN108805272A

    公开(公告)日:2018-11-13

    申请号:CN201810413101.X

    申请日:2018-05-03

    CPC classification number: G06N3/063

    Abstract: 本发明公开了一种基于FPGA的通用卷积神经网络加速器,包括MCU、AXI4总线接口、地址生成器、状态控制器、特征图缓存区、卷积核缓存区、卷积计算器以及分段式结果缓存区。卷积加速器采用FPGA实现,并包含N个卷积计算子单元,特征图缓存区和卷积核缓存区分别包含N个特征图子缓存区和N个卷积核子缓存区,每一个卷积计算子单元对应配置一个特征图子缓存区和一个卷积核子缓存区。卷积计算器读取特征图缓存区和卷积核缓存区中的数据进行卷积计算,并将相邻卷积计算子单元的计算结果进行多级累加,分段式结果缓存区用于存放卷积计算器输出的各级累加结果。本发明能够支持各种卷积神经网络结构,通用性好,对片上存储资源需求较少,通信开销小。

    一种针对硬件实现稀疏化卷积神经网络推断的加速方法

    公开(公告)号:CN109711532B

    公开(公告)日:2023-05-12

    申请号:CN201811486547.1

    申请日:2018-12-06

    Abstract: 本发明公开一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推断的部署方法:根据硬件架构中乘法器数量确定分组剪枝的分组长度和剪枝率,基于量级裁剪方式将压缩率以外的权值进行裁剪,通过增量训练方式提升剪枝后的网络准确率及压缩率,剪枝过的网络经微调后保存非剪枝位置的权值和索引参数并送入硬件架构下的计算单元中,计算单元同时获取分组长度的激活值完成稀疏网络前向推断。本发明基于硬件架构出发设定算法层面的剪枝参数与剪枝策略,有益于降低稀疏加速器的逻辑复杂度提高稀疏加速器前向推断的整体效率。

    一种基于FPGA的计算优化的卷积神经网络加速器

    公开(公告)号:CN109598338B

    公开(公告)日:2023-05-19

    申请号:CN201811493592.X

    申请日:2018-12-07

    Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。

    一种基于FPGA的稠密连接神经网络的实现方法

    公开(公告)号:CN109086879A

    公开(公告)日:2018-12-25

    申请号:CN201810729915.4

    申请日:2018-07-05

    Abstract: 本发明公开一种基于FPGA的稠密连接神经网络的实现方法,步骤是:将整个卷积神经网络划分为多个稠密连接块;利用FPGA上的资源设计卷积运算单元,进而设计FPGA端卷积运算模块;设计神经网络整体的数据收发逻辑,包括七个部分:Input Feature Map、Send Buffer、卷积运算模块、Receive Buffer、Output Feature Map、Dense Block Buffer、Max Buffer;根据稠密连接神经网络各层输入输出数据量的大小,设计Input Feature Map、Output Feature Map、Dense Block Buffer所需的存储区域大小,根据Block大小和卷积运算单元的并行度设计Send Buffer、Receive Buffer所需存储区域的大小;根据稠密连接神经网络各层的特点设计其数据收发逻辑。此种方法可在保证算法准确度的前提下降低网络各层宽度,减少参数数量,提高数据传输效率,提升神经网络的运行速度。

    一种基于ZYNQ的人脸关键点检测系统

    公开(公告)号:CN109034025A

    公开(公告)日:2018-12-18

    申请号:CN201810774764.4

    申请日:2018-07-16

    CPC classification number: G06K9/00228 G06K9/00268

    Abstract: 本发明公开一种基于ZYNQ的人脸关键点检测系统,包括摄像头、ZYNQ平台和VGA显示器,其中,ZYNQ平台集成有可编程逻辑模块和处理系统模块,处理系统模块中设有处理器和存储器;所述摄像头用于采集视频信息并将其发送到ZYNQ平台,ZYNQ平台将视频转换成单帧图像并保存在存储器中,可编程逻辑模块进行一系列计算后将运算结果返回处理器,处理器根据运算结果显示相应的人脸关键点,并将处理后的图像存至存储器,最后图像转成满足VGA输出的数据格式并输出到VGA显示器。此种系统具有并行计算能力强,准确率高和预测速度快的优点。

Patent Agency Ranking