一种神经网络硬件加速器的数据在线压缩方法及装置

    公开(公告)号:CN115660056A

    公开(公告)日:2023-01-31

    申请号:CN202211363442.3

    申请日:2022-11-02

    Abstract: 本申请公开了一种神经网络硬件加速器的数据在线压缩方法及装置,方法包括对神经网络输出的第一激活值进行转换处理,得到第一激活掩码;将第一激活掩码划分为至少两组激活子掩码,并按照预设顺序依次对每组激活子掩码进行累加处理,得到激活位置掩码;基于第一激活掩码、激活位置掩码以及神经网络输出的权重值,计算出激活选择掩码;根据激活选择掩码对第一激活值进行筛选处理,得到目标激活值,并基于目标激活值生成第二激活掩码。通过对激活值进行在线掩码的设置以及对权重值的离线压缩,不仅对不同的神经网络压缩的适应性强,还可提高数据移动效率,在降低功耗的同时保证了吞吐量。

    大规模并行程序用实时监测与分析方法

    公开(公告)号:CN112540900B

    公开(公告)日:2022-11-25

    申请号:CN201910892876.4

    申请日:2019-09-20

    Abstract: 本发明公开了一种大规模并行程序用实时监测与分析方法,S1:选出m个能够反映程序运行状态的性能指标;S2:采集选出的运行状态指标数据;S3:将S2中同一个进程相邻n次采集得到的指标数据组成一个纵向向量,计算不同进程间同一指标的余弦相似度;S4:根根据步骤S3对问题进程的其余指标进行计算,如果根据所有剩余指标得出的计算值也判断出该进程为问题进程,则判断该问题进程为异常进程,如果一个或多个指标的计算结果未超出阈值,则判断该问题进程为可疑进程;S5:将S3和S4中得到的正常进程、可疑进程和异常进程输出至显示屏。本发明在实现并行应用程序监测和分析的同时,能够降低对应用程序造成的开销和干扰。

    容器化跨平台操作系统映像构建方法

    公开(公告)号:CN112486505B

    公开(公告)日:2022-11-25

    申请号:CN201910863206.X

    申请日:2019-09-12

    Abstract: 本发明公开一种容器化跨平台操作系统映像构建方法,包括以下步骤,构建指导描述文件,其包括软件包获取方式描述、软件包依赖关系描述、软件包准备阶段描述、软件包配置阶段描述、软件包编译阶段描述、软件包安装阶段描述;准备自动化构建工具;准备针对目标处理器体系结构的交叉编译环境;创建准备针对目标处理器软件编译的目标目录;准备交叉编译器壳程序;准备自动化构建工具壳程序;基础C语言库安装于目标目录中;根据操作系统映像所需的软件包描述文件,执行自动编译安装流程和软件库安装。本发明解决利用跨平台交叉编译技术,将完整操作系统映像在非目标处理器的平台上完整的、自动的生成。

    一种支持融合算子生成的快速代码生成装置

    公开(公告)号:CN115357313A

    公开(公告)日:2022-11-18

    申请号:CN202211053429.8

    申请日:2022-08-31

    Abstract: 一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定义算子中输入、输出、中间结果数据在功能分区中的地址;融合算子数据交互模块,提供本地与主存,及本地与本地之间异步访存的函数接口;SIMD融合算子计算模块,用于根据融合算子地址配置模块生成的地址,对算子进行融合;脉动阵列指令配置模块,用于对驱动脉动阵列进行计算的指令进行配置。本发明能够有效降低代码错误率,提高代码生成效率,简化调试过程。

    一种支持累加及卸载的矩阵乘运算脉动阵列系统

    公开(公告)号:CN115357215A

    公开(公告)日:2022-11-18

    申请号:CN202211055136.3

    申请日:2022-08-30

    Abstract: 本发明涉及机器学习技术领域,具体涉及一种支持累加及卸载的矩阵乘运算脉动阵列系统,包括呈矩阵排列的运算核心、北向数据加载器、西向数据整形与加载器、累加缓冲器、累加结果写回控制器和本地局部存储器,累加缓冲器包括两个缓冲器,两个缓冲器交替工作于累加模式及卸载模式下,运算核心包括乘法器、加法器和累加数据寄存器,乘法器接收北向数据和西向数据,乘法器计算北向数据和西向数据的乘积,加法器与乘法器及累加数据寄存器连接,加法器计算乘法器输出值与累加数据寄存器值的和,并输出到南侧的运算核心的累加数据寄存器。本发明的有益技术效果包括:通过设置双缓冲器轮流工作在累加模式和卸载模式,进一步提高矩阵乘法运算的效率。

    一种支持累加结果连续写入的累加器硬件实现方法及装置

    公开(公告)号:CN115357213A

    公开(公告)日:2022-11-18

    申请号:CN202210998529.1

    申请日:2022-08-19

    Abstract: 本发明提供一种支持累加结果连续写入的累加器硬件实现方法及装置,属于高性能微处理器设计技术领域。该方法包括如下步骤:S1:基于本次累加结果对应的使能位在累加器中确定本次累加结果写入的起始条目;S2:从起始条目开始依序将本次累加结果写入累加器中;S3:获取本次累加结果写入的结束条目,基于结束条目获取本次的锁存条目;S4:锁存本次的锁存条目。本发明在编程时程序员可以基于使能位实现累加结果连续写入功能,就不必手动计算本次写入的累加器缓冲地址,因此可以降低编程的复杂性以及计算地址时出错的可能性,提高编程效率。

    一种实现归约算法的方法及装置
    27.
    发明公开

    公开(公告)号:CN115345290A

    公开(公告)日:2022-11-15

    申请号:CN202211017020.0

    申请日:2022-08-24

    Abstract: 本发明公开了一种实现归约算法的方法及装置,涉及人工智能技术领域,包括:获取从接口发来的访存请求时,判断该访存请求是否是规约读请求;如果是规约读请求,则将一个访存请求按地址拆为多个请求,并悬挂至悬挂缓冲:当收到带规约标志的响应时,在悬挂缓冲中进行规约操作;当收齐多个存储控制器返回的响应时,将规约出的结果作为一个响应返回给接口。本发明使用较小的逻辑代价,高效实现了多核人工智能处理器归约算法,避免了大量重复的访存操作,实现最大化的数据利用率。

    一种支持不同精度累加结果写回硬件的方法及装置

    公开(公告)号:CN115344232A

    公开(公告)日:2022-11-15

    申请号:CN202211017007.5

    申请日:2022-08-24

    Abstract: 本发明公开了一种支持不同精度累加结果写回硬件的方法及装置,涉及数据处理技术领域,包括:构建多个运算单元组成的二维脉动阵列;读取本地局部存储器中的北向数据,预加载在矩阵乘法加速单元中从北向南传输;读取本地局部存储器中的西向数据,加载在矩阵乘法加速单元中从西向东传输;对西向数据和北向数据进行乘加操作;累加器缓冲接收矩阵乘法加速单元最南侧的一行运算单元传输下来的累加结果,完成所有中间结果累加;将缓存结果写回至本地局部存储器。本发明运算精度灵活可配,支持多种精度运算,同时累加结果写回电路支持写回精度灵活可配。

    一种封装与印制板级分布式电源压降仿真方法

    公开(公告)号:CN113361227B

    公开(公告)日:2022-11-15

    申请号:CN202110692443.1

    申请日:2021-06-22

    Abstract: 本发明提供一种封装与印制板级分布式电源压降仿真方法,属于电源完整性设计技术领域。该封装与印制板级分布式电源压降仿真方法包括如下步骤:S1:将芯片划分为多个功能分区;S2:将每个功能分区分别设置为一级电流源备选网格和二级电流源备选网格其中的一种;S3:将一级电流源备选网格按照集总仿真方式设置电流源,对一级电流源备选网格开展初次仿真并获取一级电流源备选网格的平均电流IAVE分界线;S4:根据平均电流IAVE分界线将一级电流源备选网格内的电流>平均电流IAVE的所有BUMPs做成PIN GROUP并添加电流源;将二级电流源备选网格按照常规仿真方式设置电流源;对芯片执行最终仿真,得到最终直流压降仿真结果。本发明解决单体电流源内部等电势问题。

    基于异构众核处理器的卷积计算数据重用方法

    公开(公告)号:CN112559197B

    公开(公告)日:2022-11-15

    申请号:CN201910852525.0

    申请日:2019-09-10

    Abstract: 本发明公开一种基于异构众核处理器的卷积计算数据重用方法,CPU通过数据块A和数据块B完成数据块C的卷积计算,包括以下步骤:S1、根据异构众核处理器的内核数,二维映射成N*N个,将数据块A、数据块B、数据块C划分为N*N块,第(i,j)号内核将第(j,i)块数据从内存读取到自己的片上存储器内,数据块C(i,j)的卷积计算需要数据块A(i,k)和数据块B(k,j),其中k=1,2,……,N;S2、进入循环k,循环次数从1到N,共N次,利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求,充分发挥众核计算能力,从而实现卷积计算高性能,提升其在异构众核处理器上的计算性能。

Patent Agency Ranking