一种高效的矩阵乘运算加速装置及方法

    公开(公告)号:CN115357854A

    公开(公告)日:2022-11-18

    申请号:CN202211045832.6

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体涉及一种高效的矩阵乘运算加速装置及方法,包括矩阵乘法加速单元、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器和本地局部存储器,矩阵乘法加速单元包括呈二维脉动阵列排列的矩阵乘法加速核心,矩阵乘法加速单元通过北向数据加载器从本地局部存储器获取北向数据,西向数据整形与加载器从本地局部存储器获取西向数据并整形,矩阵乘法加速核心的运算单元进行乘加运算,乘加结果输入至累加缓冲器,全部运算结束后,累加结果写回本地局部存储器。本发明的有益技术性效果包括:北向数据可以预加载,掩盖延迟;2)固定北向数据,增加数据重用性;3)减少数据流动,降低功耗。

    一种基于掩码的混合浮点乘法低功耗控制方法及装置

    公开(公告)号:CN110727412A

    公开(公告)日:2020-01-24

    申请号:CN201910867700.3

    申请日:2019-09-14

    Abstract: 本发明公开了一种基于掩码的混合浮点乘法低功耗控制方法。包括硬件自动确定混合浮点乘法操作类型,将标准的浮点乘数与被乘数尾数的高位填充全0,使所述浮点乘数、所述被乘数均与复用定点硬件乘法器输入位宽相同;对于浮点乘法操作,将填充后的浮点乘数与被乘数根据预设的乘法编码规则、符号扩展规则获得部分积,并将无效尾数移至高位,采用掩码控制无效尾数不参与部分积压缩求和运算,以节省逻辑功耗。本发明还公开了一种基于掩码的混合浮点乘法低功耗控制装置。本发明支持复用定点乘法硬件实现浮点乘法的低功耗控制,硬件自动检测浮点乘法运算,基于掩码控制高位扩充位编码,具有硬件开销低、易于逻辑实现、功耗控制简单等优点。

    一种访存系统
    3.
    发明公开

    公开(公告)号:CN110727401A

    公开(公告)日:2020-01-24

    申请号:CN201910846714.7

    申请日:2019-09-09

    Abstract: 一种访存系统,计算机体系结构与处理器微结构设计技术领域。系统包括存储控制器和存储器;存储器为由两组存储颗粒构成的128位存储器,每组存储颗粒为64位;存储控制器包括用户接口、第一控制通路CCH0、第二控制通路CCH1、第一数据通路DCH0和第二数据通路DCH1;用户接口用于接收上层访存请求并将其分发至第一控制通路CCH0、第二控制通路CCH1、第一数据通路DCH0和第二数据通路DCH1,之后负责收集响应并返回;在单通道模式下,第一控制通路CCH0或第二控制通路CCH1用于同时管理第一数据通路DCH0和第二数据通路DCH1;在双通道模式下,第一控制通路CCH0和第二控制通路CCH1分别管理第一数据通路DCH0和第二数据通路DCH1。本发明能灵活配置成支持高可靠的应用场景和高带宽的应用场景。

    一种处理器阵列局部存储混合管理技术

    公开(公告)号:CN110704362A

    公开(公告)日:2020-01-17

    申请号:CN201910864444.2

    申请日:2019-09-12

    Abstract: 本发明提供一种处理器阵列局部存储混合管理技术,属于计算机体系结构和处理器微结构技术领域。该处理器阵列局部存储混合管理技术包括如下步骤:S1:将阵列处理器中每个核心的片上局部存储(LDM)被划分为第一类区域、第二类区域和第三类区域;S2:将第一类区域设定为用以保存本地私有数据、其具体编址仅对本核心的应用程序可见的私有存储空间;S3:将第二类区域设定为用以保存多个核心的共享数据、其具体编址对多个核心的应用程序可见的共享存储空间;S4:将第三类区域设定为用以映射到整个主存空间、采用Cache的方式管理以使本核心的应用程序对可Cache空间的访问可见的Cache存储空间。本发明针对应用特征进行灵活配置,高效发挥应用的实际运行性能。

    基于周期性查询和中断的处理器功耗动态管理系统及方法

    公开(公告)号:CN110703898A

    公开(公告)日:2020-01-17

    申请号:CN201910842782.6

    申请日:2019-09-06

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为基于周期性查询和中断的处理器功耗动态管理系统及方法。一种基于周期性查询和中断的处理器功耗动态管理系统,包括温度电压传感器,用于获取微处理器实时工作电压与温度;电源管理模块,用于获取微处理器实时电流数据;CPU内核,用于获取微处理器实时负载信息;动态调频电路,用于动态调节微处理器工作频率;智能微控制器,用于通过温度电压传感器、电源管理模块、CPU内核、动态调频电路对微处理器功耗进行动态管理与控制。本申请以较低的硬件开销支持基于周期性查询方式实时获得芯片负载与功耗信息,硬件采用中断方式根据PDM策略自动动态调节芯片工作频率,提高了微处理器能效比。

    一种浮点数尾数域余数运算电路及方法

    公开(公告)号:CN113434115B

    公开(公告)日:2024-03-22

    申请号:CN202110828951.8

    申请日:2021-07-22

    Abstract: 本发明为一种浮点数尾数域余数运算电路及方法,包括乘法余数码运算电路和取反结果余数运算电路,乘法余数码运算电路包括两个第一输入组件、一个模乘法器及一层或多层第一模加器组件。取反结果余数运算电路包括一个第二输入组件、一个模减法器及一层或多层第二模加器组件。本发明的优点是:基于算法的推导,采取等效位移再划分的方式,解决了浮点乘法不能直接利用模运算中乘法分配律的问题,极大优化了尾数乘法、减法带来的面积开销;采取等效模减运算优化了取非运算在模运算带来的面积开销。

    一种支持cache更新的一致性加速处理方法

    公开(公告)号:CN115269200A

    公开(公告)日:2022-11-01

    申请号:CN202210977978.8

    申请日:2022-08-16

    Abstract: 本发明涉及计算机数据计算领域,具体处理器多核处理的加速方法。本发明是通过以下技术方案得以实现的:一种支持cache更新的一致性加速处理方法,包含如下步骤:S01、生产核心数据生产步骤;生产核心生产出批量数据;S02、完成通知即时发送步骤;所述生产核心给一致性串行点发送完成通知;S03、串行点取数据步骤;所述一致性串行点从所述生产核心处获得刚处理完的数据,且将数据转存到主存中,在转存结束之前,该生产核心不生产新的数据;S04、消费核心获得数据步骤。本发明的目的是提供一种支持cache更新的一致性加速处理方法,在保证cache一致性的基础上,解决一致性操作的延迟开销,避免生产核心的多任务竞争,减少数据处理的延迟,提升效率。

    一种基于掩码的混合浮点乘法低功耗控制方法及装置

    公开(公告)号:CN110727412B

    公开(公告)日:2022-01-07

    申请号:CN201910867700.3

    申请日:2019-09-14

    Abstract: 本发明公开了一种基于掩码的混合浮点乘法低功耗控制方法。包括硬件自动确定混合浮点乘法操作类型,将标准的浮点乘数与被乘数尾数的高位填充全0,使所述浮点乘数、所述被乘数均与复用定点硬件乘法器输入位宽相同;对于浮点乘法操作,将填充后的浮点乘数与被乘数根据预设的乘法编码规则、符号扩展规则获得部分积,并将无效尾数移至高位,采用掩码控制无效尾数不参与部分积压缩求和运算,以节省逻辑功耗。本发明还公开了一种基于掩码的混合浮点乘法低功耗控制装置。本发明支持复用定点乘法硬件实现浮点乘法的低功耗控制,硬件自动检测浮点乘法运算,基于掩码控制高位扩充位编码,具有硬件开销低、易于逻辑实现、功耗控制简单等优点。

    一种FPGA内部访问系统、FPGA验证方法

    公开(公告)号:CN110717311A

    公开(公告)日:2020-01-21

    申请号:CN201910857720.2

    申请日:2019-09-11

    Abstract: 一种FPGA内部访问系统、FPGA验证方法,属于大规模FPGA验证平台实现技术领域。系统包括外部控制器、FPGA芯片;FPGA芯片包括BSCAN单元、接口电路和用户逻辑电路;外部控制器通过JTAG接口与FPGA芯片中的BSCAN单元连接,BSCAN单元经接口电路连接用户逻辑电路。方法包括针对芯片内的多个逻辑模块,配置多个与逻辑模块相对应的FPGA芯片;当至少有两个模块为同一逻辑模块例化后的模块时,例化后的模块均采用同一种类的FPGA芯片;其中,FPGA芯片基于BSCAN单元通过JTAG接口与外部控制器连接;FPGA芯片内设置连接于BSCAN单元和用户逻辑电路之间的接口电路。本发明不占用通用IO管脚资源,只需非常简单的接口电路,就能实现对FPGA内部的访问,在FPGA验证平台调试和使用时,减少了芯片逻辑种类。

    一种高效的处理器数据加载装置及方法

    公开(公告)号:CN110716754A

    公开(公告)日:2020-01-21

    申请号:CN201910857060.8

    申请日:2019-09-11

    Abstract: 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO写访问信息依次转成IO写操作以发送至处理器内部IO寄存器进行写操作;响应处理模块,用于接收处理器内部IO寄存器返回的写响应信号并进行处理。一种高效的处理器数据加载方法,包括1)通过组包模块串行接收扫入数据,并将扫入数据组成由8个IO写访问信息串行拼接而成的IO写请求包。本申请通过组包模块和请求发送模块能够将所需加载数据进行批量长包扫描转IO写操作,使数据加载效率得到有效提高。

Patent Agency Ranking