-
公开(公告)号:CN114970849A
公开(公告)日:2022-08-30
申请号:CN202210744277.X
申请日:2022-06-28
Applicant: 西安交通大学
Abstract: 本发明公开了一种硬件加速器多阵列并行计算方法及系统,对硬件加速器中的卷积运算进行分块处理;根据分块处理后的单层卷积,加载GEMM运算对应的输入数据、权重数据,根据加载的输入数据、权重数据以及数据在加速器缓存中的起始地址并行进行计算,通过多阵列的方式实现GEMM的高效运算,理想状态下能够节省GEMM运算接近至少一半的运算时间,提升基于卷积的神经网络在张量加速器上的推理效率,本发明多阵列的并行计算方式可减少权重数据的重复加载,缩小计算时间和访存时间的差距,提升卷积运算的效率,各计算模块可以并行计算,将不同模块的计算结果直接保存到根据基地址和偏移地址计算出的缓存地址中,保证了计算结果的正确性。
-
公开(公告)号:CN114970849B
公开(公告)日:2024-08-13
申请号:CN202210744277.X
申请日:2022-06-28
Applicant: 西安交通大学
IPC: G06N3/063 , G06N3/0464
Abstract: 本发明公开了一种硬件加速器多阵列并行计算方法及系统,对硬件加速器中的卷积运算进行分块处理;根据分块处理后的单层卷积,加载GEMM运算对应的输入数据、权重数据,根据加载的输入数据、权重数据以及数据在加速器缓存中的起始地址并行进行计算,通过多阵列的方式实现GEMM的高效运算,理想状态下能够节省GEMM运算接近至少一半的运算时间,提升基于卷积的神经网络在张量加速器上的推理效率,本发明多阵列的并行计算方式可减少权重数据的重复加载,缩小计算时间和访存时间的差距,提升卷积运算的效率,各计算模块可以并行计算,将不同模块的计算结果直接保存到根据基地址和偏移地址计算出的缓存地址中,保证了计算结果的正确性。
-
公开(公告)号:CN115100505A
公开(公告)日:2022-09-23
申请号:CN202210769541.5
申请日:2022-07-01
Applicant: 西安交通大学
IPC: G06V10/94 , G06T1/60 , G06T7/62 , G06V10/24 , G06V10/764
Abstract: 本发明公开了一种实现NMS计算和目标框坐标原尺寸下转换的方法和系统,通过将NMS中的计算过程拆分成置信度筛选出有效边框、有效边框的中心坐标转换左上角和右下角坐标、交并比计算的三个计算过程,在边框输入的时钟周期内,可流水完成NMS的计算,并有效减少了计算时间,提高了计算速度。筛选物体置信度高于置信度阈值的边框作为有效边框,只存储有效边框在寄存器组,利用读写指针控制寄存器组中有效边框依次进行交并比计算,大大减少了中间数据的存储;置信度筛选,有效信息整合和交并比计算的三级流水线,使计算效率大大增加,当最后一个边框携带信息输入完毕后,可使NMS的最终目标框同步输出,经原图尺寸转换后,得到可直接显示的最终有效边框信息。
-
-