一种面向多请求来源的DDR4性能平衡调度结构及方法

    公开(公告)号:CN110716797A

    公开(公告)日:2020-01-21

    申请号:CN201910852485.X

    申请日:2019-09-10

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种面向多请求来源的DDR4性能平衡调度结构及方法。一种面向多请求来源的DDR4性能平衡调度结构,包括多个访存请求调度缓冲,用于提高对应访存请求来源的访存带宽;多来源的连续仲裁部件,用于选择出一个访存请求进行发射;DDR4存储器件,用于接收多来源的连续仲裁部件发射的访存请求。一种面向多请求来源的DDR4性能平衡调度方法,包括L1.对每个访存请求来源的访存请求均设置一个访存请求调度缓冲;L2.多来源的连续仲裁部件通过仲裁策略选择出一个访存请求进行发射。本申请面向多请求来源分别设置多个访存请求调度缓冲,能够在提高访存带宽的同时,减少对访存延迟的影响,提高了系统的综合访存性能。

    一种基于FPGA内部IDDR和ODDR电路的管脚复用装置及方法

    公开(公告)号:CN110704366A

    公开(公告)日:2020-01-17

    申请号:CN201910858177.8

    申请日:2019-09-11

    Abstract: 本发明涉及大规模FPGA验证平台实现技术领域,具体为一种基于FPGA内部IDDR和ODDR电路的管脚复用装置及方法。一种基于FPGA内部IDDR和ODDR电路的管脚复用装置,包括输入输出单元,以IDDR电路作为输入、ODDR电路作为输出。一种基于FPGA内部IDDR和ODDR电路的管脚复用方法,包括1)采用FPGA内部的IDDR电路和ODDR电路为基本输入输出单元。本申请采用FPGA内部的IDDR电路和ODDR电路为基本输入输出单元,实现多FPGA片间的信号传输,有效控制了输入输出的延迟一致性;FPGA片间仅传输数据信号,不传输倍频发送时钟,其数据通过本地时钟产生的倍频接收时钟进行采样接收,该电路通过动态配置接口来调节接收时钟的相位,从而实现不同传输延迟下的可靠传输。

    一种实现归约算法的方法及装置
    3.
    发明公开

    公开(公告)号:CN115345290A

    公开(公告)日:2022-11-15

    申请号:CN202211017020.0

    申请日:2022-08-24

    Abstract: 本发明公开了一种实现归约算法的方法及装置,涉及人工智能技术领域,包括:获取从接口发来的访存请求时,判断该访存请求是否是规约读请求;如果是规约读请求,则将一个访存请求按地址拆为多个请求,并悬挂至悬挂缓冲:当收到带规约标志的响应时,在悬挂缓冲中进行规约操作;当收齐多个存储控制器返回的响应时,将规约出的结果作为一个响应返回给接口。本发明使用较小的逻辑代价,高效实现了多核人工智能处理器归约算法,避免了大量重复的访存操作,实现最大化的数据利用率。

    一种支持单步调试的矩阵乘运算脉动阵列装置及调试方法

    公开(公告)号:CN115329264A

    公开(公告)日:2022-11-11

    申请号:CN202211047818.X

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体涉及一种支持单步调试的矩阵乘运算脉动阵列装置及调试方法,其中装置包括呈矩阵排列的运算核心、脉动阵列控制器、累加缓冲器和本地局部存储器,脉动阵列控制器包括北向数据加载器、西向数据整形与加载器、累加结果写回控制器、本地局部存储器访问接口和描述符管理解析模块,累加结果回写控制器与累加缓冲器连接,描述符管理解析模块接收单步调试模式设置及断点地址,若单步调试模式设置为有效,则西向数据加载到相应的断点地址时,停止加载西向数据及北向数据,并将已计算的结果输出至累加缓冲器。本发明的有益技术效果包括:支持单步调试有助于排查运算程序的异常和错误,提高神经网络模型的训练和预测效率。

    支持进位借位正常传递的多精度大整数算术运算加速单元

    公开(公告)号:CN110716709B

    公开(公告)日:2021-10-29

    申请号:CN201910864339.9

    申请日:2019-09-12

    Abstract: 本发明提供支持进位借位正常传递的多精度大整数算术运算加速单元,属于计算机体系结构和处理器微结构技术领域。该支持进位借位正常传递的多精度大整数算术运算加速单元包括512位操作数A[511:0]、512位操作数B[511:0]、进位借位寄存器索引idx、进位借位寄存器、512位运算结果RSLT[511:0]、功能码opf和运算装置。本发明可以直接实现512位数据之间的加减运算,进位借位寄存器保存512位计算的进借位,便于扩展实现更高精度大整数之间的加减运算,还可以直接实现两组128位数据之间的乘法运算,配合移位加操作可扩展实现更高精度大整数之间的乘法运算。

    一种浮点数尾数域余数运算电路及方法

    公开(公告)号:CN113434115A

    公开(公告)日:2021-09-24

    申请号:CN202110828951.8

    申请日:2021-07-22

    Abstract: 本发明为一种浮点数尾数域余数运算电路及方法,包括乘法余数码运算电路和取反结果余数运算电路,乘法余数码运算电路包括两个第一输入组件、一个模乘法器及一层或多层第一模加器组件。取反结果余数运算电路包括一个第二输入组件、一个模减法器及一层或多层第二模加器组件。本发明的优点是:基于算法的推导,采取等效位移再划分的方式,解决了浮点乘法不能直接利用模运算中乘法分配律的问题,极大优化了尾数乘法、减法带来的面积开销;采取等效模减运算优化了取非运算在模运算带来的面积开销。

    一种支持写暗示的硬件高速缓存数据装入方法

    公开(公告)号:CN110716887A

    公开(公告)日:2020-01-21

    申请号:CN201910857256.7

    申请日:2019-09-11

    Abstract: 本发明包括下述步骤:S1、确定需要目标主存的主存数据行的地址信息,该地址信息由写暗示指令携带;S2、通过CPU向目标Cache发出写暗示指令,所述写暗示指令生成写暗示标记,并且将要携带的目标主存的主存数据行地址映射为目标Cache中的缓存行;S3、判断映射的目标Cache中对应的缓存行是否访问命中;S4、确定映射的目标Cache中对应的缓存行命中,则判断缓存行是否有效;S5、确定缓存行有效时,则将该缓存行淘汰回主存;S6、设置缓存行有效,并结束处理,后续对写暗示装入的缓存行进行访问时,按照正常的高速缓存访问方式进行。本发明通过在硬件高速缓存中直接占用缓存行,而不读取并装入对应的主存行,显著降低缓存行第一次访问主存的延迟。

    一种浮点数尾数域余数运算电路及方法

    公开(公告)号:CN113434115B

    公开(公告)日:2024-03-22

    申请号:CN202110828951.8

    申请日:2021-07-22

    Abstract: 本发明为一种浮点数尾数域余数运算电路及方法,包括乘法余数码运算电路和取反结果余数运算电路,乘法余数码运算电路包括两个第一输入组件、一个模乘法器及一层或多层第一模加器组件。取反结果余数运算电路包括一个第二输入组件、一个模减法器及一层或多层第二模加器组件。本发明的优点是:基于算法的推导,采取等效位移再划分的方式,解决了浮点乘法不能直接利用模运算中乘法分配律的问题,极大优化了尾数乘法、减法带来的面积开销;采取等效模减运算优化了取非运算在模运算带来的面积开销。

    一种高效的处理器数据加载装置及方法

    公开(公告)号:CN110716754A

    公开(公告)日:2020-01-21

    申请号:CN201910857060.8

    申请日:2019-09-11

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO写访问信息依次转成IO写操作以发送至处理器内部IO寄存器进行写操作;响应处理模块,用于接收处理器内部IO寄存器返回的写响应信号并进行处理。一种高效的处理器数据加载方法,包括1)通过组包模块串行接收扫入数据,并将扫入数据组成由8个IO写访问信息串行拼接而成的IO写请求包。本申请通过组包模块和请求发送模块能够将所需加载数据进行批量长包扫描转IO写操作,使数据加载效率得到有效提高。

    支持进位借位正常传递的多精度大整数算术运算加速单元

    公开(公告)号:CN110716709A

    公开(公告)日:2020-01-21

    申请号:CN201910864339.9

    申请日:2019-09-12

    Abstract: 本发明提供支持进位借位正常传递的多精度大整数算术运算加速单元,属于计算机体系结构和处理器微结构技术领域。该支持进位借位正常传递的多精度大整数算术运算加速单元包括512位操作数A[511:0]、512位操作数B[511:0]、进位借位寄存器索引idx、进位借位寄存器、512位运算结果RSLT[511:0]、功能码opf和运算装置。本发明可以直接实现512位数据之间的加减运算,进位借位寄存器保存512位计算的进借位,便于扩展实现更高精度大整数之间的加减运算,还可以直接实现两组128位数据之间的乘法运算,配合移位加操作可扩展实现更高精度大整数之间的乘法运算。

Patent Agency Ranking