-
公开(公告)号:CN115374912A
公开(公告)日:2022-11-22
申请号:CN202211038174.8
申请日:2022-08-29
Applicant: 无锡江南计算技术研究所
Abstract: 本发明涉及计算机数据计算领域,具体涉及到异构计算系统的设计。本发明是通过以下技术方案得以实现的:一种用于异构计算的融合算子设计方法,包含如下步骤:S01、归一化算子划分步骤;在该步骤中,将归一化算子划分成和计算算子与线性缩放算子两个算子,S02、算子融合步骤;依次将所述线性缩放算子、激活算子、卷积算子、所述和计算算子组成一个融合算子。本发明的目的是提供一种用于异构计算的融合算子设计方法和异构计算系统,在保证操作的正确性和操作种类不变的情况下,对算子的融合方式进行全新的设计和拆分,使得大量计算过程的数据交互均在片上进行,优化数据交互的带宽使用效率。
-
公开(公告)号:CN115169541A
公开(公告)日:2022-10-11
申请号:CN202210986917.8
申请日:2022-08-17
Applicant: 无锡江南计算技术研究所
IPC: G06N3/04 , G06F15/173 , G06F9/50 , G06F9/48
Abstract: 一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;多端口本地数据存储单元:用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信;在线远程存储访问单元:用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
-
公开(公告)号:CN110688209B
公开(公告)日:2022-09-13
申请号:CN201910852487.9
申请日:2019-09-10
Applicant: 无锡江南计算技术研究所
Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种基于二叉树的大窗口访存流量调度缓冲结构及方法。一种基于二叉树的大窗口访存流量调度缓冲结构,包括存储条目,用于记录访存请求的信息;空条目队列,用于以队列的形式挂载存储条目;调度二叉树,用于以二叉树的形式组织存储条目。访存请求的信息包括访存请求信息、条目的左子指针、条目的右子指针。本申请在访存请求到达缓冲时,即将其组织成二叉树结构,在发射时只需要选择二叉树的根节点即可,能够在面对大量访存请求时,实现大规模的访存请求调度,挖掘访存序列的局部性,提高访存带宽,缓解访存墙问题。
-
公开(公告)号:CN112163187A
公开(公告)日:2021-01-01
申请号:CN202011290004.X
申请日:2020-11-18
Applicant: 无锡江南计算技术研究所
IPC: G06F17/14
Abstract: 本发明涉及数字信号处理领域,具体涉及一种超长点数超高性能FFT计算装置。本发明通过以下技术方案得以实现的:一种超长点数超高性能FFT计算装置,包含FFT计算模块和控制单元,所述FFT计算模块数量为两个,分别为计算模块一和计算模块二;还包含两个三维转置存储器和二维转置存储器;三维转置存储器一的数据输入端连接主存,数据输出端连接计算模块一;所述二维转置存储器的数据输入端连接所述计算模块一,数据输出端连接所述计算模块二。本发明的目的是提供一种超长点数超高性能FFT计算装置,通过全新的数据转置处理方式,增加数据平滑性,使得FFT数据处理过程中数据带宽利用率高,大大增加处理效率。
-
公开(公告)号:CN110716754A
公开(公告)日:2020-01-21
申请号:CN201910857060.8
申请日:2019-09-11
Applicant: 无锡江南计算技术研究所
IPC: G06F9/4401
Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO写访问信息依次转成IO写操作以发送至处理器内部IO寄存器进行写操作;响应处理模块,用于接收处理器内部IO寄存器返回的写响应信号并进行处理。一种高效的处理器数据加载方法,包括1)通过组包模块串行接收扫入数据,并将扫入数据组成由8个IO写访问信息串行拼接而成的IO写请求包。本申请通过组包模块和请求发送模块能够将所需加载数据进行批量长包扫描转IO写操作,使数据加载效率得到有效提高。
-
公开(公告)号:CN115470449A
公开(公告)日:2022-12-13
申请号:CN202211046679.9
申请日:2022-08-30
Applicant: 无锡江南计算技术研究所
Abstract: 本发明涉及机器学习技术领域,具体包括一种矩阵乘运算脉动阵列装置及区间配置累加方法,包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加器缓冲控制器、结果写回控制器和本地局部存储器,累加结果回写控制器与累加缓冲器连接,运算核心包括乘法器、加法器和累加数据寄存器,乘法器接收北向数据和西向数据,乘法器计算北向数据和西向数据的乘积,加法器与乘法器及累加数据寄存器连接,加法器计算乘法器输出值与累加数据寄存器值的和。本发明的有益技术效果包括:提高矩阵乘法运算效率,能够灵活配置结果的缓存位置,便于结果的回写。
-
公开(公告)号:CN115373849A
公开(公告)日:2022-11-22
申请号:CN202211038180.3
申请日:2022-08-29
Applicant: 无锡江南计算技术研究所
Abstract: 本发明属于高性能微处理器领域,涉及一种支持脉动阵列高效计算的方法及系统。方法包括:S1将第一矩阵数据中的行数据在二维脉动阵列中以第一方向进行传输,以将第一矩阵数据中的各行数据预加载至二维脉动阵列中的各行运算CU中;S2按时钟将第二矩阵数据中带有使能更新信号的列数据以自上而下延迟依次增加的模式在二维脉动阵列中以第二方向进行传输,以将第二矩阵数据中的各列数据实时输入至二维脉动阵列中的相应运算CU中;本发明将第一矩阵数据中的各行数据预加载至二维脉动阵列中的各行运算CU中,其次,第二矩阵数据中带有使能更新信号,并根据所述使能更新信号直接提取预加载在CU单元中的所需数据。实现了第一矩阵数据加载的无缝切换与实时更新。
-
公开(公告)号:CN115329939A
公开(公告)日:2022-11-11
申请号:CN202211017844.8
申请日:2022-08-24
Applicant: 无锡江南计算技术研究所
Abstract: 本发明提供一种支持多种不同精度运算的脉动阵列硬件实现方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:建立神经网络的阶段和运算配置相关联的关联表;S2:获取神经网络的阶段,从关联表中获取与该阶段对应的运算配置;S3:如果运算配置为混合精度浮点运算,则基于脉动阵列建立16*16bit+32bit定点/浮点运算模型,基于16*16bit+32bit定点/浮点运算模型进行混合精度浮点运算,如果运算配置为定点整形运算,则基于脉动阵列建立8*8bit+16bit定点运算模型,基于8*8bit+16bit定点运算模型进行定点整形运算。本发明充分挖掘降低精度的空间,提升处理吞吐率,提升脉动阵列运算性能,同时降低了不必要的硬件开销。
-
公开(公告)号:CN115329263A
公开(公告)日:2022-11-11
申请号:CN202211045829.4
申请日:2022-08-30
Applicant: 无锡江南计算技术研究所
Abstract: 本发明涉及机器学习技术领域,具体涉及一种支持低开销北向数据加载的矩阵乘运算脉动阵列装置,脉动阵列装置包括n*n运算核心、北向数据加载器、西向数据整形与加载器和累加缓冲器,运算核心包括北向数据影子寄存器、忙碌锁存器、北向数据寄存器、累加数据寄存器、北向更新使能寄存器、西向数据寄存器、乘法器和加法器,北向数据加载器与第一行运算核心的北向数据影子寄存器及忙碌锁存器连接,设定节拍周期,每三个节拍向第一行运算核心的北向数据影子寄存器写入北向数据并置相应的忙碌锁存器为1,北向数据影子寄存器依次传递北向数据并在传递后复位忙碌锁存器。本发明的有益技术效果包括:实现北向数据的预加载,提高了矩阵乘法运算的效率。
-
公开(公告)号:CN115328657A
公开(公告)日:2022-11-11
申请号:CN202211023541.7
申请日:2022-08-25
Applicant: 无锡江南计算技术研究所
Abstract: 本发明属于高性能微处理器领域,涉及基于轻量级消息和共享局部存储器的协同计算系统及方法。包括:S1主核心执行核心算法;S2判断是否执行到加速计算部分,若否则返回步骤S1,若是则执行步骤S3;S3主核心继续执行程序中的核心算法,并同时发送轻量级消息至数据中转处理器;S4数据中转处理器在局部数据存储器中提取相应位置处的原始数据并转发至异构核心;S5异构核心进行相应计算以得到相应的结果数据,并将结果数据返回至数据中转处理器;S6数据中转处理器将结果数据发送至局部数据存储器,局部数据存储器将结果数据存储至相应位置处,以供主核心提取。本发明提供基于轻量级消息和共享局部存储器的协同计算系统及方法,系统结构简洁、交互性能高。
-
-
-
-
-
-
-
-
-