-
公开(公告)号:CN112561943B
公开(公告)日:2022-11-22
申请号:CN202011532801.4
申请日:2020-12-23
Applicant: 清华大学
Abstract: 本发明涉及图像处理领域,具体涉及一种基于脉动阵列卷积运算数据复用的图像处理方法。本发明方法在脉动阵列结构的基础上进行拓展,通过对卷积核旋转处理实现了卷积核在图像上滑动的效果;通过图像的重排列实现了图像和旋转后的卷积核的对应。这一改变极大的改善了嵌入式设备的性能。对比于传统的卷积运算转化为矩阵乘法运算的内存开销,本方法的内存开销减少了近70%。在图像边缘检测的实现效果中,基于CycloneVSoC‑FPGA平台,设计了本方法对应的图像边缘识别加速系统,对卷积运算进行了加速验证。在测试中,卷积核旋转脉动阵列结构的处理速度为0.011秒,对比于ARMCoretexA9处理器,速度提升了16.27倍,对比于i5‑7700 2.8GHz CPU,速度提升了9倍。
-
公开(公告)号:CN112561943A
公开(公告)日:2021-03-26
申请号:CN202011532801.4
申请日:2020-12-23
Applicant: 清华大学
Abstract: 本发明涉及图像处理领域,具体涉及一种基于脉动阵列卷积运算数据复用的图像处理方法。本发明方法在脉动阵列结构的基础上进行拓展,通过对卷积核旋转处理实现了卷积核在图像上滑动的效果;通过图像的重排列实现了图像和旋转后的卷积核的对应。这一改变极大的改善了嵌入式设备的性能。对比于传统的卷积运算转化为矩阵乘法运算的内存开销,本方法的内存开销减少了近70%。在图像边缘检测的实现效果中,基于CycloneVSoC‑FPGA平台,设计了本方法对应的图像边缘识别加速系统,对卷积运算进行了加速验证。在测试中,卷积核旋转脉动阵列结构的处理速度为0.011秒,对比于ARMCoretexA9处理器,速度提升了16.27倍,对比于i5‑7700 2.8GHz CPU,速度提升了9倍。
-