一种神经网络数据压缩装置和方法

    公开(公告)号:CN119250134A

    公开(公告)日:2025-01-03

    申请号:CN202411226583.X

    申请日:2024-09-03

    Abstract: 本发明提供了一种人工神经网络数据压缩装置和方法,浮点数据采集模块用于获取人工神经网络的浮点数据;浮点数据存储模块用于存储以共享指数浮点格式存在的浮点数据;浮点数据运算模块用于将以共享指数浮点格式存在的浮点数据进行人工神经网络正向运算;其中,所述共享指数浮点格式具体是将n个浮点数据编码为一个块,块中的每个数据由E、S和M三部分组成,分别代表指数、符号和尾数部分,根据E和共享指数Es之间的差异edif向右移位。该装置能够利用共享指数实现高数据压缩率,同时在低精度格式上保持良好的DNN模型精度,并且比现有的低精度浮点格式更适合端侧设备的乘积电路实现。

    一种基于row-wise分块的宏指令集架构

    公开(公告)号:CN119201229A

    公开(公告)日:2024-12-27

    申请号:CN202411226579.3

    申请日:2024-09-03

    Abstract: 一种基于row‑wise分块的宏指令集架构,包括:args、regs、load、store、remap和compute六个宏指令,args配置用于操作计算的关键参数,reg配置compute指令所需的宏寄存器,load和store控制芯片外存储器和片上存储之间的数据移动,remap用于将数据从一个宏寄存器重新映射到另一个宏寄存器,而无需进行实际的数据移动,compute宏指令用于启动算子计算,其中,regs和compute用于构造内核函数,其他宏指令用于准备操作数。该宏指令集架构能够在一条指令内执行复杂的操作。这种能力使得程序员可以用更少的指令实现更多功能,从而简化编程和调试过程。

    一种多功能的数据重组网络

    公开(公告)号:CN113795831B

    公开(公告)日:2023-09-12

    申请号:CN202180003140.2

    申请日:2021-01-21

    Abstract: 一种多功能的数据重组网络,包括二元交换单元和递归洗牌网络RSN,其中所述二元交换单元和递归洗牌网络RSN都可以实现数据的双向传输,该数据重组网络通过控制信号在网络中的传输方向完成数据重组。该网络可以作为存储单元和运算单元之间的数据传输通路,在数据传输的同时完成多种数据重组功能,从而对非规则数据进行灵活的数据结构调整,提高非规则计算的数据传输效率和计算效率。

    增强神经网络卷积运算数据复用度的高速缓存实现方法

    公开(公告)号:CN115374906A

    公开(公告)日:2022-11-22

    申请号:CN202210924541.8

    申请日:2022-08-02

    Abstract: 本公开揭示了增强神经网络卷积运算数据复用度的高速缓存实现方法,其在存储单元LM和矩阵运算单元MPU之间增加高速缓存LC,MPU每次读取数据时,先将所需数据的地址和读命令输入到LC中,查找是否有需要的数据,如果命中,则从LC中读取该数据;否则,将所需数据的地址和读命令输入到LM中,从LM中读取该数据,并且同时将该数据记录在LC中;其中,所述LM包括存储wt数据的LMWT和存储fm数据LMFM,所述高速缓存LC包括存储wt数据的LCWT和存储fm数据LCFM。由于本公开在LM和MPU之间增加了高速缓存LocalCache,进一步提升了数据的复用度,减少了从LM中读取数据的次数,降低处理器的功耗。

    一种通过算法控制单元进行调度计算的硬件结构

    公开(公告)号:CN115374395A

    公开(公告)日:2022-11-22

    申请号:CN202210924137.0

    申请日:2022-08-02

    Abstract: 本公开揭示了一种通过“Algorithm Zoo”进行调度计算的硬件结构,包括系统寄存器控制单元sys registers,算法控制单元Algorithm Zoo,计算阵列单元PE‑Array,片上存储单元Memory,RISC‑V处理器,双倍速率动态存储器DDR和向量处理单元VPU,其中,所述算法控制单元Algorithm Zoo包括数据传输模块TRANS、卷积运算模块CONV、深度可分离卷积计算控制模块DWCON、反卷积计算控制模块DCONV、池化控制模块Pooling和数据变形模块Reshape。本公开的硬件结构可通过编程灵活支持常见的神经网络计算硬件实现。

    一种卷积运算的硬件自动padding的方法

    公开(公告)号:CN115374394A

    公开(公告)日:2022-11-22

    申请号:CN202210924136.6

    申请日:2022-08-02

    Abstract: 本公开揭示卷积运算的硬件自动padding的方法及其数据存储格式。其中,该数据存储格式在数据存储过程中,会将整个输入数据ifm进行分段,每段数据进行8等分切分,得到8组数据,然后对每组数据进行等位置抽取,等位置数据排为一列,进行顺序存储。如此,这种存储格式具有更好的局部性。相比现有技术中的HWC格式,本公开将此种存储格式命名为HWC88格式。对于所述硬件自动padding的方法,在采用HWC88存储格式的数据左右两侧,通过对原数据进行复制、移位后自动补足padding数据,从而快速进行卷积运算,其中在显式存储padding时,将padding部分视为正常数据,不需要额外计算padding地址。

    用于通道均衡传输的路由节点

    公开(公告)号:CN113014497A

    公开(公告)日:2021-06-22

    申请号:CN202110165948.2

    申请日:2021-02-05

    Abstract: 公开了一种用于通道均衡传输的路由节点,多端口数据输入模块配置成输入数据,输入数据包括通道选择信息,路由计算模块连接多通道模块、交叉开关分配模块和通道分配模块,交叉开关连接多通道模块和多端口数据输出模块,交叉开关将多通道模块中的数据发送至多端口数据输出模块,通道分配模块一端连接多通道模块,一端连接数据流控制模块,一端连接路由计算模块,多端口数据输出模块连接交叉开关以输出数据,输出数据包括通道选择信息,通道选择信息由通道分配模块生成以选择数据进入的输出通道,输出通道为下级路由节点的多通道模块中的一个通道,通道均衡由通道分配模块负责。

    一种并行计算的系统
    9.
    发明公开

    公开(公告)号:CN109445752A

    公开(公告)日:2019-03-08

    申请号:CN201811177771.2

    申请日:2018-10-10

    Abstract: 一种并行计算的系统,包括输入端口,第一交换网络,计算阵列,第二交换网络和输出端口,其中:第一交换网络用于从输入端口接收输入数据,并根据计算阵列的不同计算模式对输入数据进行排序并输出排序后的输入数据;计算阵列用于根据不同计算模式对所述排序后的输入数据进行并行计算并输出中间数据;第二交换网络用于根据不同输出模式对所述中间数据进行排序并通过所述输出端口输出排序后的中间数据。本公开巧妙的将计算机体系结构中的交换网络应用于并行计算的系统,并根据不同的计算模式、输出模式,对输入或输出数据进行任意所需的排序,使得输入数据进入计算阵列后,通过计算阵列完成多种运算操作。

Patent Agency Ranking