一种硬件加速器多阵列并行计算方法及系统

    公开(公告)号:CN114970849A

    公开(公告)日:2022-08-30

    申请号:CN202210744277.X

    申请日:2022-06-28

    Abstract: 本发明公开了一种硬件加速器多阵列并行计算方法及系统,对硬件加速器中的卷积运算进行分块处理;根据分块处理后的单层卷积,加载GEMM运算对应的输入数据、权重数据,根据加载的输入数据、权重数据以及数据在加速器缓存中的起始地址并行进行计算,通过多阵列的方式实现GEMM的高效运算,理想状态下能够节省GEMM运算接近至少一半的运算时间,提升基于卷积的神经网络在张量加速器上的推理效率,本发明多阵列的并行计算方式可减少权重数据的重复加载,缩小计算时间和访存时间的差距,提升卷积运算的效率,各计算模块可以并行计算,将不同模块的计算结果直接保存到根据基地址和偏移地址计算出的缓存地址中,保证了计算结果的正确性。

    一种硬件加速器多阵列并行计算方法及系统

    公开(公告)号:CN114970849B

    公开(公告)日:2024-08-13

    申请号:CN202210744277.X

    申请日:2022-06-28

    Abstract: 本发明公开了一种硬件加速器多阵列并行计算方法及系统,对硬件加速器中的卷积运算进行分块处理;根据分块处理后的单层卷积,加载GEMM运算对应的输入数据、权重数据,根据加载的输入数据、权重数据以及数据在加速器缓存中的起始地址并行进行计算,通过多阵列的方式实现GEMM的高效运算,理想状态下能够节省GEMM运算接近至少一半的运算时间,提升基于卷积的神经网络在张量加速器上的推理效率,本发明多阵列的并行计算方式可减少权重数据的重复加载,缩小计算时间和访存时间的差距,提升卷积运算的效率,各计算模块可以并行计算,将不同模块的计算结果直接保存到根据基地址和偏移地址计算出的缓存地址中,保证了计算结果的正确性。

    一种硬件加速器的可重构阵列优化方法及自动调优方法

    公开(公告)号:CN113220630B

    公开(公告)日:2024-05-10

    申请号:CN202110548117.3

    申请日:2021-05-19

    Abstract: 本发明公开了一种硬件加速器的可重构阵列优化方法及自动调优方法,属于神经网络张量加速器设计工程技术领域。所述优化方法包括适用于被动改变的硬件参数作为外层参数,适用于主动改变的硬件参数作为内层参数;外层参数为输入通道、输出通道和整数位宽;内层参数为逻辑核、模式掩码和单元掩码。所述自动调优方法包括以:针对外层参数,通过应用级切换中设置对应寄存器位置,完成各个应用的最佳硬件配置;针对内层参数,采用编译器+解释器的方式,通过设置逻辑核数和模式掩码完成零填充优化,通过设置单元掩码完成分组并行优化。本发明为对功耗和效率敏感的特殊领域系统中的深度神经网络模型部署提供一种高效的解决方案。

    一种硬件加速器的可重构阵列优化方法及自动调优方法

    公开(公告)号:CN113220630A

    公开(公告)日:2021-08-06

    申请号:CN202110548117.3

    申请日:2021-05-19

    Abstract: 本发明公开了一种硬件加速器的可重构阵列优化方法及自动调优方法,属于神经网络张量加速器设计工程技术领域。所述优化方法包括适用于被动改变的硬件参数作为外层参数,适用于主动改变的硬件参数作为内层参数;外层参数为输入通道、输出通道和整数位宽;内层参数为逻辑核、模式掩码和单元掩码。所述自动调优方法包括以:针对外层参数,通过应用级切换中设置对应寄存器位置,完成各个应用的最佳硬件配置;针对内层参数,采用编译器+解释器的方式,通过设置逻辑核数和模式掩码完成零填充优化,通过设置单元掩码完成分组并行优化。本发明为对功耗和效率敏感的特殊领域系统中的深度神经网络模型部署提供一种高效的解决方案。

Patent Agency Ranking