多虚通道传输时共享与私有相结合的缓冲设计方法与装置

    公开(公告)号:CN110661728A

    公开(公告)日:2020-01-07

    申请号:CN201910866274.1

    申请日:2019-09-12

    Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。

    多深度缓冲激活重发方法及装置

    公开(公告)号:CN113900816B

    公开(公告)日:2024-03-22

    申请号:CN202111201772.8

    申请日:2021-10-15

    Abstract: 本发明实施例提供一种多深度缓冲激活重发方法及装置,所述方法包括:高速缓冲存储器接收到访存请求,获取访存请求的请求地址,根据请求地址判断访存请求是否命中;未命中则发送访存请求进入脱靶缓冲,并设置第一重发标识位;高速缓冲存储器接收到后续未命中请求时,获取后续未命中请求后续地址,与请求地址进行地址相关性判断;当不相关时,发送后续未命中请求进入脱靶缓冲,设置第二重发标识位;检测到脱靶缓冲中的访存请求和后续未命中请求完成从主存装载后,通过激活重发步骤,对脱靶缓冲中的访存请求进行重发。采用本方法能够支持访存请求的乱序发射和乱序完成,同时保证脱靶请求重发后的正确性,从而提高数据Cache的性能和效率。

    一种矩阵乘运算装置及其低开销异常定位方法

    公开(公告)号:CN115470450A

    公开(公告)日:2022-12-13

    申请号:CN202211046721.7

    申请日:2022-08-30

    Abstract: 本发明涉及人工智能技术领域,具体涉及一种矩阵乘运算装置及其低开销异常定位方法,包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器、异常检测控制器和本地局部存储器,异常检测控制器与南侧一行及东侧一列运算核心连接,运算核心包括乘法器、加法器、累加数据寄存器和异常寄存器,乘法器接收北向数据和西向数据,乘法器计算北向数据和西向数据的乘积,加法器与乘法器及累加数据寄存器连接,加法器计算乘法器输出值与累加数据寄存器值的和,并输出到南侧的运算核心的累加数据寄存器,异常寄存器与乘法器及加法器连接。本发明的有益技术效果包括:能够及时排查异常情况,提高异常排除效率。

    一种累加器缓冲的数据累加卸载系统及方法

    公开(公告)号:CN115268837A

    公开(公告)日:2022-11-01

    申请号:CN202210966710.4

    申请日:2022-08-12

    Abstract: 本发明涉及累加器缓冲技术领域,具体为一种累加器缓冲的数据累加卸载系统及方法。一种累加器缓冲的数据累加卸载系统,包括一累加器缓冲控制逻辑和多个累加器缓冲模块;每一所述累加器缓冲模块均包括一控制寄存器,与所述累加器缓冲控制逻辑电性连接,用于接收并暂存所述累加器缓冲控制逻辑发出的控制信号;一数据累加卸载子模块,与所述控制寄存器电性连接,包括缓冲本体,用于按缓冲条目先后顺序缓存累加结果;结果处理单元,与所述缓冲本体电性连接。本发明的实施例中,累加器缓冲模块能够一边通过缓冲本体对累加结果进行缓存,一边通过结果处理单元对缓冲本体中已缓存的累加结果进行卸载,有效提高了累加器缓冲的工作效率。

    多虚通道传输时共享与私有相结合的缓冲设计方法与装置

    公开(公告)号:CN110661728B

    公开(公告)日:2022-10-04

    申请号:CN201910866274.1

    申请日:2019-09-12

    Abstract: 本发明提供多虚通道传输时共享与私有相结合的缓冲设计方法与装置,属于计算机体系结构与处理器微结构设计技术领域。该多虚通道传输时共享与私有相结合的缓冲设计方法与装置包括如下步骤:S1:发送器获取缓冲条目中的待发送网络包的类型、NO域的值和信用值,如果NO域的值为0和信用值为非0则将待发送网络包发送出去;S2:将与待发送网络包的同类型所有条目的NO域的值减1、将本地待发送网络包的信用值减1,将该网络包所在条目释放;S3:接收器判断私有缓冲区域是否存在空闲,如果有则接收器将待发送网络包存储在私有缓冲区域,如果没有则接收器将待发送网络包存储在共享缓冲区域。本发明灵活性较高。

    多深度缓冲激活重发方法及装置

    公开(公告)号:CN113900816A

    公开(公告)日:2022-01-07

    申请号:CN202111201772.8

    申请日:2021-10-15

    Abstract: 本发明实施例提供一种多深度缓冲激活重发方法及装置,所述方法包括:高速缓冲存储器接收到访存请求,获取访存请求的请求地址,根据请求地址判断访存请求是否命中;未命中则发送访存请求进入脱靶缓冲,并设置第一重发标识位;高速缓冲存储器接收到后续未命中请求时,获取后续未命中请求后续地址,与请求地址进行地址相关性判断;当不相关时,发送后续未命中请求进入脱靶缓冲,设置第二重发标识位;检测到脱靶缓冲中的访存请求和后续未命中请求完成从主存装载后,通过激活重发步骤,对脱靶缓冲中的访存请求进行重发。采用本方法能够支持访存请求的乱序发射和乱序完成,同时保证脱靶请求重发后的正确性,从而提高数据Cache的性能和效率。

    一种处理器阵列局部存储混合管理方法

    公开(公告)号:CN110704362B

    公开(公告)日:2021-03-12

    申请号:CN201910864444.2

    申请日:2019-09-12

    Abstract: 本发明提供一种处理器阵列局部存储混合管理技术,属于计算机体系结构和处理器微结构技术领域。该处理器阵列局部存储混合管理技术包括如下步骤:S1:将阵列处理器中每个核心的片上局部存储(LDM)被划分为第一类区域、第二类区域和第三类区域;S2:将第一类区域设定为用以保存本地私有数据、其具体编址仅对本核心的应用程序可见的私有存储空间;S3:将第二类区域设定为用以保存多个核心的共享数据、其具体编址对多个核心的应用程序可见的共享存储空间;S4:将第三类区域设定为用以映射到整个主存空间、采用Cache的方式管理以使本核心的应用程序对可Cache空间的访问可见的Cache存储空间。本发明针对应用特征进行灵活配置,高效发挥应用的实际运行性能。

    一种矩阵乘运算脉动阵列装置及区间配置累加方法

    公开(公告)号:CN115470449A

    公开(公告)日:2022-12-13

    申请号:CN202211046679.9

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体包括一种矩阵乘运算脉动阵列装置及区间配置累加方法,包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加器缓冲控制器、结果写回控制器和本地局部存储器,累加结果回写控制器与累加缓冲器连接,运算核心包括乘法器、加法器和累加数据寄存器,乘法器接收北向数据和西向数据,乘法器计算北向数据和西向数据的乘积,加法器与乘法器及累加数据寄存器连接,加法器计算乘法器输出值与累加数据寄存器值的和。本发明的有益技术效果包括:提高矩阵乘法运算效率,能够灵活配置结果的缓存位置,便于结果的回写。

    一种支持脉动阵列高效计算的方法及系统

    公开(公告)号:CN115373849A

    公开(公告)日:2022-11-22

    申请号:CN202211038180.3

    申请日:2022-08-29

    Abstract: 本发明属于高性能微处理器领域,涉及一种支持脉动阵列高效计算的方法及系统。方法包括:S1将第一矩阵数据中的行数据在二维脉动阵列中以第一方向进行传输,以将第一矩阵数据中的各行数据预加载至二维脉动阵列中的各行运算CU中;S2按时钟将第二矩阵数据中带有使能更新信号的列数据以自上而下延迟依次增加的模式在二维脉动阵列中以第二方向进行传输,以将第二矩阵数据中的各列数据实时输入至二维脉动阵列中的相应运算CU中;本发明将第一矩阵数据中的各行数据预加载至二维脉动阵列中的各行运算CU中,其次,第二矩阵数据中带有使能更新信号,并根据所述使能更新信号直接提取预加载在CU单元中的所需数据。实现了第一矩阵数据加载的无缝切换与实时更新。

    一种支持多种不同精度运算的脉动阵列硬件实现方法及装置

    公开(公告)号:CN115329939A

    公开(公告)日:2022-11-11

    申请号:CN202211017844.8

    申请日:2022-08-24

    Abstract: 本发明提供一种支持多种不同精度运算的脉动阵列硬件实现方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:建立神经网络的阶段和运算配置相关联的关联表;S2:获取神经网络的阶段,从关联表中获取与该阶段对应的运算配置;S3:如果运算配置为混合精度浮点运算,则基于脉动阵列建立16*16bit+32bit定点/浮点运算模型,基于16*16bit+32bit定点/浮点运算模型进行混合精度浮点运算,如果运算配置为定点整形运算,则基于脉动阵列建立8*8bit+16bit定点运算模型,基于8*8bit+16bit定点运算模型进行定点整形运算。本发明充分挖掘降低精度的空间,提升处理吞吐率,提升脉动阵列运算性能,同时降低了不必要的硬件开销。

Patent Agency Ranking