一种基于GPU的卷积运算内存访问优化方法

    公开(公告)号:CN111797985A

    公开(公告)日:2020-10-20

    申请号:CN202010710031.1

    申请日:2020-07-22

    Abstract: 一种基于GPU的卷积运算内存访问优化方法,涉及卷积运算访存优化技术。本发明能够解决现有技术的卷积运算访存开销较大的缺陷。技术要点:将卷积核数据加载至共享内存中;将卷积输出以32列为单位分割成子块,得到若干个包含32列数据的子块以及1个少于32列数据的子块;每个线程计算该线程所需要的第一个数据的索引;每个线程通过列重用算法从所述第一个数据的索引中获取剩余所需的输入数据,并将获取的输入数据传递给行重用算法;经过行重用算法计算输出结果并存储在寄存器数据sum中;并将sum写入全局内存;计算卷积输出中其余待计算的数据。本发明用于对图像处理、视频处理和机器学习领域中的卷积运算进行访存优化。

    一种基于GPU的卷积运算内存访问优化方法

    公开(公告)号:CN111797985B

    公开(公告)日:2022-11-22

    申请号:CN202010710031.1

    申请日:2020-07-22

    Abstract: 一种基于GPU的卷积运算内存访问优化方法,涉及卷积运算访存优化技术。本发明能够解决现有技术的卷积运算访存开销较大的缺陷。技术要点:将卷积核数据加载至共享内存中;将卷积输出以32列为单位分割成子块,得到若干个包含32列数据的子块以及1个少于32列数据的子块;每个线程计算该线程所需要的第一个数据的索引;每个线程通过列重用算法从所述第一个数据的索引中获取剩余所需的输入数据,并将获取的输入数据传递给行重用算法;经过行重用算法计算输出结果并存储在寄存器数据sum中;并将sum写入全局内存;计算卷积输出中其余待计算的数据。本发明用于对图像处理、视频处理和机器学习领域中的卷积运算进行访存优化。

Patent Agency Ranking