基于混合粒度乘法部件的多精度乘法器及运算方法

    公开(公告)号:CN112631548B

    公开(公告)日:2022-10-04

    申请号:CN202011524239.0

    申请日:2020-12-22

    Abstract: 本发明公开一种基于混合粒度乘法部件的多精度乘法器及运算方法,所述运算方法包括以下步骤:调度器将乘法运算的两个位宽分别为Mbit、Nbit的操作数进行分割;调度器计算步骤1中获得的每一组细粒度乘法运算结果需要向左移动的位数;调度器将步骤1中分割后的细粒度乘法运算的两个操作数和步骤2中对应的左移位数打包成乘法器指令;调度器将步骤3中生成的乘法器指令送入计算单元的指令队列;细粒度乘法部件完成细粒度的乘法运算;将乘法结果向左移位后的结果送入加法树。本发明很好的平衡了计算延迟、计算能力的利用率和控制结构复杂度三者之间的关系,降低了控制结构的复杂度。

    多虚通道传输时共享与私有相结合的缓冲设计方法与装置

    公开(公告)号:CN110661728B

    公开(公告)日:2022-10-04

    申请号:CN201910866274.1

    申请日:2019-09-12

    Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。

    一种基于动态信用的零级指令循环缓冲预取方法及装置

    公开(公告)号:CN110727463B

    公开(公告)日:2021-08-10

    申请号:CN201910863815.5

    申请日:2019-09-12

    Abstract: 本发明公开了一种基于动态信用的零级指令循环缓冲预取方法。包括当检测到指令流中存在循环体时,判断循环体的循环方向;根据循环体的循环方向确定循环体的循环出口指令信息,并根据循环出口指令信息向一级指令缓存控制部件发送预取信用信息;当检测到输出指令到达循环体尾部时,判断循环体的行进方向,若循环体的行进方向为继续循环方向,则向一级指令缓存控制部件的预取信用管理部件发送启动预取信号。本发明还公开了一种基于动态信用的零级指令循环缓冲预取装置。本发明通过预取循环出口方向的指令,可以在零级指令循环缓存中的循环退出时,立即从零级指令缓存中继续提供出口方向的指令,避免零级指令缓存脱靶时带来的性能气泡。

    一种基于并行循环压缩的余数运算电路及方法

    公开(公告)号:CN110688094B

    公开(公告)日:2021-01-26

    申请号:CN201910861698.9

    申请日:2019-09-12

    Abstract: 本发明属于计算机整数乘法校验设计技术领域,特别涉及一种基于并行压缩循环的余数运算电路及方法。包括多个输入端,分别用于输入多个同位宽的二进制数;模加法器,用于输出求余结果;一层或多层进位保留加法器组件,设置在多个输入端和模加法器之间;每一层进位保留加法器组件包括一个或者多个进位保留加法器;最上层的进位保留加法器的两个输出连接至模加法器的输入,其余每层进位保留加法器的和输出作为下层进位保留加法器的输入,其余每层进位保留加法器的进位输出向最左移动1位以后作为下层进位保留加法器的输入;同位宽的二进制数由整数拆分而成。仅在最后输出一级采用了模加法器,而中间级均采用进位保留加法器提高了电路的时序性能。

    芯片访存通路的高效分段测试系统、方法

    公开(公告)号:CN110718263A

    公开(公告)日:2020-01-21

    申请号:CN201910846816.9

    申请日:2019-09-09

    Abstract: 芯片访存通路的高效分段测试系统、方法,计算机体系结构与处理器微结构设计技术领域。系统包括存储控制器和存储器;存储控制器在其内部设有测试存储器、微操作控制器、IO寄存器,测试存储器用于模拟存储器的读、写延迟行为。方法包括步骤S01,存储控制器发送维护访问请求或CPU访问请求给存储器,检测存储器的访存通路能正常访问,执行步骤S02,不能正常访问,执行步骤S03;步骤S02,存储控制器在测试模式下与测试存储器进行读写数据模式测试;步骤S03,IO寄存器触发微操作控制器工作,微操作控制器发送命令给存储器,用于测试并定位访存通路存在的问题。本发明便于定位芯片访存通路问题,加速芯片的访存通路调试过程,还可实现多种DDR4流程的调试工作。

    一种基于二叉树的大窗口访存流量调度缓冲结构及方法

    公开(公告)号:CN110688209A

    公开(公告)日:2020-01-14

    申请号:CN201910852487.9

    申请日:2019-09-10

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种基于二叉树的大窗口访存流量调度缓冲结构及方法。一种基于二叉树的大窗口访存流量调度缓冲结构,包括存储条目,用于记录访存请求的信息;空条目队列,用于以队列的形式挂载存储条目;调度二叉树,用于以二叉树的形式组织存储条目。访存请求的信息包括访存请求信息、条目的左子指针、条目的右子指针。本申请在访存请求到达缓冲时,即将其组织成二叉树结构,在发射时只需要选择二叉树的根节点即可,能够在面对大量访存请求时,实现大规模的访存请求调度,挖掘访存序列的局部性,提高访存带宽,缓解访存墙问题。

    部件模型间通信的模拟及路由方法、并行事务级模拟系统

    公开(公告)号:CN102761473A

    公开(公告)日:2012-10-31

    申请号:CN201110110822.1

    申请日:2011-04-29

    Abstract: 一种建立部件模型间通信的模拟方法,包括:将所述部件模型以矩阵形式分布,确定所述矩阵的维数;根据所述部件模型的类型,将所述矩阵分成子矩阵,基于所述矩阵的维数及所述子矩阵在所述矩阵中的位置生成分布表达式;基于所述部件模型在所述矩阵中的位置坐标和待模拟的部件模型间的连接关系生成连接关系表达式;检查所述分布表达式和连接关系表达式的逻辑是否正确,若正确则基于所述连接关系表达式,生成并行事务级模拟系统的描述文件。本发明公开的技术方案提高了并行事务级模拟系统的开发效率,降低了维护部件模型和并行事务级模拟系统的开销。

    深度卷积的在线计算部件

    公开(公告)号:CN112632459B

    公开(公告)日:2023-07-07

    申请号:CN202011525795.X

    申请日:2020-12-22

    Abstract: 本发明公开一种深度卷积的在线计算部件,包括标准卷积部件、累加器和连接于累加器数据输出接口上的深度卷积部件;所述深度卷积部件包括若干级激活值站台、若干个乘法器、若干个权重值站台和至少一个设置于2个相邻激活值站台之间的延迟站台,每一个乘法器配备1个激活值站台和1个权重值站台,延迟站台的延迟值D等于输入激活图的宽度,权重值在卷积计算开始之前预先置位,激活值站台采用逐级推进的方式注入运算部件,每一级激活值站台中当前存放的结果送到下一级激活值站台。本发明在不破坏累加器输出数据结构的前提下,高效地完成了深度卷积计算,可以很大程度提高深度卷积运算的计算资源利用率,加速整个神经网络的运算速度。

    一种神经网络硬件加速器的数据在线压缩方法及装置

    公开(公告)号:CN115660056A

    公开(公告)日:2023-01-31

    申请号:CN202211363442.3

    申请日:2022-11-02

    Abstract: 本申请公开了一种神经网络硬件加速器的数据在线压缩方法及装置,方法包括对神经网络输出的第一激活值进行转换处理,得到第一激活掩码;将第一激活掩码划分为至少两组激活子掩码,并按照预设顺序依次对每组激活子掩码进行累加处理,得到激活位置掩码;基于第一激活掩码、激活位置掩码以及神经网络输出的权重值,计算出激活选择掩码;根据激活选择掩码对第一激活值进行筛选处理,得到目标激活值,并基于目标激活值生成第二激活掩码。通过对激活值进行在线掩码的设置以及对权重值的离线压缩,不仅对不同的神经网络压缩的适应性强,还可提高数据移动效率,在降低功耗的同时保证了吞吐量。

    一种支持融合算子生成的快速代码生成装置

    公开(公告)号:CN115357313A

    公开(公告)日:2022-11-18

    申请号:CN202211053429.8

    申请日:2022-08-31

    Abstract: 一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定义算子中输入、输出、中间结果数据在功能分区中的地址;融合算子数据交互模块,提供本地与主存,及本地与本地之间异步访存的函数接口;SIMD融合算子计算模块,用于根据融合算子地址配置模块生成的地址,对算子进行融合;脉动阵列指令配置模块,用于对驱动脉动阵列进行计算的指令进行配置。本发明能够有效降低代码错误率,提高代码生成效率,简化调试过程。

Patent Agency Ranking