-
公开(公告)号:CN117575884A
公开(公告)日:2024-02-20
申请号:CN202311599686.6
申请日:2023-11-28
Applicant: 南京大学
IPC: G06T1/20 , G06T1/60 , G06N3/0464
Abstract: 本发明提供了一种面向典型网络块结构的层融合加速与调度装置,包括输入存储部分、层参数选择部分、计算部分、输出排序与存储部分,以及控制部分。所述输入存储部分存储输入像素、中间融合结果和权重,层参数选择部分预存各层参数并调用,计算部分支持卷积、深度卷积与池化计算,输出排序与存储部分将输出或中间融合层计算结果排序并存储在片上,控制部分负责所有部分的控制。本发明基于典型块结构特点,采用纵向融合、横向融合或二者联合融合来实现性能优化。纵向融合通过优化的执行调度消除了冗余的片外访问从而减少了数据传输延迟,中间融合层存储没有消耗额外的片上资源;横向融合在减少冗余片外访问基础上还平衡了计算负载,提高了计算效率。
-
公开(公告)号:CN117808050A
公开(公告)日:2024-04-02
申请号:CN202410036818.2
申请日:2024-01-10
Applicant: 南京大学
IPC: G06N3/0464 , G06F17/15
Abstract: 本发明提供一种支持任意尺寸与形状卷积核计算的架构,包括用于获取、预存和拼接输入像素数据,以及获取权重数据和层参数的输入数据准备部分,所述权重数据可能涉及将卷积核离线分割或拆分成若干子核;用于对输入数据准备部分获取的像素数据进行灵活排列的Z字形数据流数据准备部分,其中横向数据移动模块与纵向数据移动模块互相解耦,使架构具有支持任意尺寸与形状卷积核计算的灵活性,而不会产生冗余的计算和数据传输;用于根据层参数将目标像素数据与目标权重数据在乘累加阵列中进行卷积的计算部分;用于对输出像素进行排列和存储的输出数据重排与存储部分;用于对上述所有部分进行控制以实现逐层计算的控制部分,尤其是对不同子核计算的控制。
-