Patent search ap:("无锡江南计算技术研究所") AND inv:"谭弘兵" Page 3

21.

发明公开
一种支持工作区和结果区切换的累加器双缓冲方法及装置审中-实审

公开(公告)号：CN115328435A

公开(公告)日：2022-11-11

申请号：CN202210998532.3

申请日：2022-08-19

Applicant: 无锡江南计算技术研究所

Inventor： 吴铁彬 , 陈庆强 , 唐勇 , 谭弘兵 , 于齐 , 李宏亮

IPC: G06F7/498

Abstract: 本发明提供一种支持工作区和结果区切换的累加器双缓冲方法及装置，属于高性能微处理器设计技术领域。该方法包括如下步骤：S1：在未确定两个缓冲分别为何区时将处于空闲状态的一个缓冲作为工作区、将处于卸载状态的另一个缓冲作为结果区，在确定两个缓冲分别为何区时执行S2；S2：控制工作区进行累加运算并存储累加结果和控制结果区进行卸载数据；S3：在工作区的累加结果存储完毕时将该缓冲切换为结果区、在结果区数据卸载完毕并清0时将该缓冲切换为工作区。本发明的累加结果不用等待缓冲数据卸载完成就可以直接与当前的缓冲进行累加并写入，因此可以隐藏累加结果写回的延迟，提高脉动阵列的性能。

22.

发明公开
一种用于脉动阵列的数据调度方法审中-实审

公开(公告)号：CN115237603A

公开(公告)日：2022-10-25

申请号：CN202211038909.7

申请日：2022-08-29

Applicant: 无锡江南计算技术研究所

Inventor： 谭弘兵 , 王迪 , 王吉军 , 张昆 , 郝子宇 , 李宏亮

IPC: G06F9/50 , G06N3/04 , G06N3/08

Abstract: 一种用于脉动阵列的数据调度方法，属于神经网络技术领域。本发明包括：步骤1，令待卷积/待矩阵乘的数据A分布在m个核心上；步骤2，将数据B广播给m个核心，m个核心每轮得到相同的b进行计算；步骤3，当每个核心上的分布式数据A与所有的b计算完成，将结果写回主存；步骤4，重复步骤1‑3进行数据A下一部分的计算。本发明能够有效提升片上数据的复用次数，降低带宽需求，可以有效提升硬件加速器性能。

23.

发明公开
一种基于动态信用的零级指令循环缓冲预取方法及装置有权

公开(公告)号：CN110727463A

公开(公告)日：2020-01-24

申请号：CN201910863815.5

申请日：2019-09-12

Applicant: 无锡江南计算技术研究所

Inventor： 李宏亮 , 张昆 , 郑方 , 菅陆田 , 陈芳园 , 郝子宇 , 谭弘兵

IPC: G06F9/30

Abstract: 本发明公开了一种基于动态信用的零级指令循环缓冲预取方法。包括当检测到指令流中存在循环体时，判断循环体的循环方向；根据循环体的循环方向确定循环体的循环出口指令信息，并根据循环出口指令信息向一级指令缓存控制部件发送预取信用信息；当检测到输出指令到达循环体尾部时，判断循环体的行进方向，若循环体的行进方向为继续循环方向，则向一级指令缓存控制部件的预取信用管理部件发送启动预取信号。本发明还公开了一种基于动态信用的零级指令循环缓冲预取装置。本发明通过预取循环出口方向的指令，可以在零级指令循环缓存中的循环退出时，立即从零级指令缓存中继续提供出口方向的指令，避免零级指令缓存脱靶时带来的性能气泡。

24.

发明公开
一种支持融合算子生成的快速代码生成装置审中-实审

公开(公告)号：CN115357313A

公开(公告)日：2022-11-18

申请号：CN202211053429.8

申请日：2022-08-31

Applicant: 无锡江南计算技术研究所

Inventor： 王迪 , 王吉军 , 谭弘兵 , 张昆 , 郝子宇

IPC: G06F9/448 , G06F9/38 , G06K9/62

Abstract: 一种支持融合算子生成的快速代码生成装置，属于深度学习技术领域。本发明包括：LDM区域划分模块，用于根据上层框架输入的网络尺寸参数，对本地的存储空间进行功能分区；融合算子地址配置模块，用于根据上层框架输入的融合算子类型，定义算子中输入、输出、中间结果数据在功能分区中的地址；融合算子数据交互模块，提供本地与主存，及本地与本地之间异步访存的函数接口；SIMD融合算子计算模块，用于根据融合算子地址配置模块生成的地址，对算子进行融合；脉动阵列指令配置模块，用于对驱动脉动阵列进行计算的指令进行配置。本发明能够有效降低代码错误率，提高代码生成效率，简化调试过程。

25.

发明公开
一种支持累加及卸载的矩阵乘运算脉动阵列系统审中-实审

公开(公告)号：CN115357215A

公开(公告)日：2022-11-18

申请号：CN202211055136.3

申请日：2022-08-30

Applicant: 无锡江南计算技术研究所

Inventor： 谭弘兵 , 陈芳园 , 孙红辉 , 唐勇 , 吴铁彬 , 郝子宇

IPC: G06F7/523 , G06F9/445 , G06F3/06 , G06F17/16

Abstract: 本发明涉及机器学习技术领域，具体涉及一种支持累加及卸载的矩阵乘运算脉动阵列系统，包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器和本地局部存储器，累加缓冲器包括两个缓冲器，两个缓冲器交替工作于累加模式及卸载模式下，运算核心包括乘法器、加法器和累加数据寄存器，乘法器接收北向数据和西向数据，乘法器计算北向数据和西向数据的乘积，加法器与乘法器及累加数据寄存器连接，加法器计算乘法器输出值与累加数据寄存器值的和，并输出到南侧的运算核心的累加数据寄存器。本发明的有益技术效果包括：通过设置双缓冲器轮流工作在累加模式和卸载模式，进一步提高矩阵乘法运算的效率。

26.

发明公开
一种支持累加结果连续写入的累加器硬件实现方法及装置审中-实审

公开(公告)号：CN115357213A

公开(公告)日：2022-11-18

申请号：CN202210998529.1

申请日：2022-08-19

Applicant: 无锡江南计算技术研究所

Inventor： 吴铁彬 , 石嵩 , 谭弘兵 , 孙红辉 , 赵晓东

IPC: G06F7/498

Abstract: 本发明提供一种支持累加结果连续写入的累加器硬件实现方法及装置，属于高性能微处理器设计技术领域。该方法包括如下步骤：S1：基于本次累加结果对应的使能位在累加器中确定本次累加结果写入的起始条目；S2：从起始条目开始依序将本次累加结果写入累加器中；S3：获取本次累加结果写入的结束条目，基于结束条目获取本次的锁存条目；S4：锁存本次的锁存条目。本发明在编程时程序员可以基于使能位实现累加结果连续写入功能，就不必手动计算本次写入的累加器缓冲地址，因此可以降低编程的复杂性以及计算地址时出错的可能性，提高编程效率。

27.

发明公开
一种实现归约算法的方法及装置审中-实审

公开(公告)号：CN115345290A

公开(公告)日：2022-11-15

申请号：CN202211017020.0

申请日：2022-08-24

Applicant: 无锡江南计算技术研究所

Inventor： 吴智 , 宁永波 , 赵冠一 , 陈芳园 , 谭弘兵

IPC: G06N3/063 , G06N20/00

Abstract: 本发明公开了一种实现归约算法的方法及装置，涉及人工智能技术领域，包括：获取从接口发来的访存请求时，判断该访存请求是否是规约读请求；如果是规约读请求，则将一个访存请求按地址拆为多个请求，并悬挂至悬挂缓冲：当收到带规约标志的响应时，在悬挂缓冲中进行规约操作；当收齐多个存储控制器返回的响应时，将规约出的结果作为一个响应返回给接口。本发明使用较小的逻辑代价，高效实现了多核人工智能处理器归约算法，避免了大量重复的访存操作，实现最大化的数据利用率。

28.

发明公开
一种支持不同精度累加结果写回硬件的方法及装置审中-实审

公开(公告)号：CN115344232A

公开(公告)日：2022-11-15

申请号：CN202211017007.5

申请日：2022-08-24

Applicant: 无锡江南计算技术研究所

Inventor： 谭弘兵 , 吴铁彬 , 谢军 , 郝子宇 , 王迪

IPC: G06F7/498 , G06N3/04

Abstract: 本发明公开了一种支持不同精度累加结果写回硬件的方法及装置，涉及数据处理技术领域，包括：构建多个运算单元组成的二维脉动阵列；读取本地局部存储器中的北向数据，预加载在矩阵乘法加速单元中从北向南传输；读取本地局部存储器中的西向数据，加载在矩阵乘法加速单元中从西向东传输；对西向数据和北向数据进行乘加操作；累加器缓冲接收矩阵乘法加速单元最南侧的一行运算单元传输下来的累加结果，完成所有中间结果累加；将缓存结果写回至本地局部存储器。本发明运算精度灵活可配，支持多种精度运算，同时累加结果写回电路支持写回精度灵活可配。

29.

发明公开
一种支持单步调试的矩阵乘运算脉动阵列装置及调试方法审中-实审

公开(公告)号：CN115329264A

公开(公告)日：2022-11-11

申请号：CN202211047818.X

申请日：2022-08-30

Applicant: 无锡江南计算技术研究所

Inventor： 赵冠一 , 吴铁彬 , 李峰 , 唐勇 , 谭弘兵

IPC: G06F17/16 , G06F9/30 , G06F7/50 , G06F7/52 , G06N3/04

Abstract: 本发明涉及机器学习技术领域，具体涉及一种支持单步调试的矩阵乘运算脉动阵列装置及调试方法，其中装置包括呈矩阵排列的运算核心、脉动阵列控制器、累加缓冲器和本地局部存储器，脉动阵列控制器包括北向数据加载器、西向数据整形与加载器、累加结果写回控制器、本地局部存储器访问接口和描述符管理解析模块，累加结果回写控制器与累加缓冲器连接，描述符管理解析模块接收单步调试模式设置及断点地址，若单步调试模式设置为有效，则西向数据加载到相应的断点地址时，停止加载西向数据及北向数据，并将已计算的结果输出至累加缓冲器。本发明的有益技术效果包括：支持单步调试有助于排查运算程序的异常和错误，提高神经网络模型的训练和预测效率。

30.

发明公开
一种支持并发处理多个计算加速引擎的异步计算方法及装置审中-实审

公开(公告)号：CN115269013A

公开(公告)日：2022-11-01

申请号：CN202210966615.4

申请日：2022-08-12

Applicant: 无锡江南计算技术研究所

Inventor： 过锋 , 李宏亮 , 许晓红 , 郝子宇 , 吴铁彬 , 谭弘兵 , 王迪

IPC: G06F9/38 , G06F9/50

Abstract: 本发明提供一种支持并发处理多个计算加速引擎的异步计算方法及装置，属于高性能微处理器设计技术领域。该方法包括如下步骤：S1：在加速核心内部集成多个用以处理不同的加速需求的异步计算引擎；S2：控制主流水线接收异步计算指令并基于异步计算指令获取异步计算请求；S3：基于异步计算请求从多个异步计算引擎中获取目标异步计算引擎，控制目标异步计算引擎进行异步计算处理得到处理结果，将处理结果存储在局部数据存储器中；S4：控制局部数据存储器和主流水线进行数据交互以将处理结果交互至主流水线。本发明可以支持一个或多个异步计算加速引擎，以应对应用中不同的加速需求，因此具有一定的灵活性和扩展性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification