面向硬件计算的全整型卷积神经网络量化优化方法及系统

    公开(公告)号:CN118446253A

    公开(公告)日:2024-08-06

    申请号:CN202410540661.7

    申请日:2024-04-30

    Abstract: 本发明公开了一种面向硬件计算的全整型卷积神经网络量化优化方法及系统,考虑了硬件的计算方式,将卷积神经网络中SiLU激活函数使用查表法进行运算,降低了运算的复杂度。通过对神经网络模型所有算子插入伪量化节点,获取量化系数scale,并转为二的幂次使得硬件可以通过移位进行运算。通过一系列的优化方法,经过本设计处理后的网络在损失细微的精度上,极大提升了硬件的推理速度和模型占用的内存空间。使用保存的scale和量化参数在C++卷积神经网络仿真平台上进行测试,使得实验结果更具有说服力。

    一种快速查找数据集最大或最小N个值的硬件装置及方法

    公开(公告)号:CN113094020B

    公开(公告)日:2023-03-28

    申请号:CN202110278224.9

    申请日:2021-03-15

    Abstract: 本发明公开了一种快速查找数据集最大或最小N个值的硬件装置及方法,包括所述存储器单元,用于分组存储参与向量最大值或最小值运算的数据;所述寄存器单元,用于存储最大或最小N个值的中间结果和最终结果;所述比较器单元,用于比较当前最大值或最小值寄存器中所存储的值和当前每组对应的输入数据的大小关系;根据比较器的结果选择是否更新最大值或最小值寄存器中所存储的值。本发明通过使用两级多分组流水线设计,在不增加额外存储资源的情况下大大减少了求取最大或最小N个值的周期数,减少了计算所需的时间。

    一种硬件加速器的可重构阵列优化方法及自动调优方法

    公开(公告)号:CN113220630A

    公开(公告)日:2021-08-06

    申请号:CN202110548117.3

    申请日:2021-05-19

    Abstract: 本发明公开了一种硬件加速器的可重构阵列优化方法及自动调优方法,属于神经网络张量加速器设计工程技术领域。所述优化方法包括适用于被动改变的硬件参数作为外层参数,适用于主动改变的硬件参数作为内层参数;外层参数为输入通道、输出通道和整数位宽;内层参数为逻辑核、模式掩码和单元掩码。所述自动调优方法包括以:针对外层参数,通过应用级切换中设置对应寄存器位置,完成各个应用的最佳硬件配置;针对内层参数,采用编译器+解释器的方式,通过设置逻辑核数和模式掩码完成零填充优化,通过设置单元掩码完成分组并行优化。本发明为对功耗和效率敏感的特殊领域系统中的深度神经网络模型部署提供一种高效的解决方案。

    一种基于门限值和线性映射的反锐化增强方法

    公开(公告)号:CN110070508B

    公开(公告)日:2020-11-10

    申请号:CN201910328975.X

    申请日:2019-04-23

    Abstract: 一种基于门限值和线性映射的反锐化增强方法,包括:步骤一、对输入的原始图像进行反锐化掩模运算;步骤二、选取门限值,通过门限值对反锐化掩模运算得到的数据范围进行钳位处理;步骤三、求取原始图像的最大值和最小值,根据原始图像的最大值和最小值计算映射点,求得映射区间,对钳位处理后的数据进行分区间线性映射,得到增强之后的图像输出。本发明通过选取合适的门限值钳位反锐化运算后的结果,充分考虑原始图像的极值分布,选取合适的区间,利用线性映射的方法校正反锐化运算后的结果,使最终处理后的图像接近原始图像的直方图分布,相比于原始图像边缘更加清晰,不会造成值域扩大,视觉效果好。

    卷积神经网络全连接层稀疏的权值矩阵的压缩方法及系统

    公开(公告)号:CN110062233B

    公开(公告)日:2020-04-28

    申请号:CN201910339608.X

    申请日:2019-04-25

    Abstract: 本发明公开了一种卷积神经网络全连接层稀疏的权值矩阵的压缩方法及系统,包括以下步骤:步骤1,获取待优化卷积神经网络的全连接层稀疏的权值矩阵A,并将其分解成位置矩阵B以及非零值数组C;其中,位置矩阵B与稀疏的权值矩阵A的尺寸大小一致;在位置矩阵B中,稀疏的权值矩阵A中有非零值的对应位置的数值为1,其他位置的数值为0;步骤2,将步骤1获得的位置矩阵B作为二值矩阵,进行满足预设图像压缩标准的无损压缩。本发明可提高全连接层稀疏的权值矩阵的压缩率,节省更多的存储空间。

    用于多核处理器的一致性维护装置及一致性交互方法

    公开(公告)号:CN102346714B

    公开(公告)日:2014-07-02

    申请号:CN201110302822.1

    申请日:2011-10-09

    Abstract: 本发明公开了一种用于多核处理器的一致性维护装置及一致性交互方法,主要用于解决现有多核处理器Cache一致性协议在处理读缺失和写缺失的一致性交互过程中目录访问延迟大的技术问题。本发明将多核处理器的所有内核划分为并列关系的多个节点,每个节点包含多个内核。在发生读、写缺失时根据节点预测Cache直接预测访问与读、写缺失内核最近的有效数据副本节点,并将更新目录步骤推迟到数据访问结束以后进行,从而完全隐藏目录访问延迟,提升了访存效率;双层目录结构将目录存储开销由指数级增长转化为线性增长,更具可扩展性;由于以节点为单位进行粗粒度预测,相对以内核为单位进行的细粒度预测节省了预测信息的存储开销。

    ARM虚拟机中基于MMU的外设访问控制的实现方法

    公开(公告)号:CN102306108B

    公开(公告)日:2014-04-23

    申请号:CN201110217684.7

    申请日:2011-08-01

    Abstract: 本发明提供了一种ARM虚拟机中基于MMU的外设访问控制的实现方法,首先对于虚拟机需要监控的外设,更改每一个上层操作系统中该外设物理寄存器地址所对应的段页表项映射,把对应页表项中的Domain位改为一个错误的值,同时在底层虚拟机的地址空间建立该外设正确的地址映射,且该底层虚拟机接管硬件的数据异常处理以截获上层操作系统可能出现的地址访问错误,当上层操作系统访问上述外设地址时,在MMU进行地址翻译时会产生Domain?Fault,从而进入处理器的数据异常处理模式,该行为被虚拟机捕获后,通过读取硬件寄存器以判断是否是Domain?Fault类型,如果不是,则跳回操作系统的地址空间,如果是,则底层虚拟机对操作系统的此次访问数据进行处理,并依据处理后的数据由虚拟机访问对应外设寄存器。本发明可以用来解决多个操作系统同时运行时可能存在的对同一外设的访问冲突。

    复用客户操作系统设备驱动的实现方法

    公开(公告)号:CN102339230A

    公开(公告)日:2012-02-01

    申请号:CN201110255829.2

    申请日:2011-09-01

    Abstract: 本发明提供了一种复用客户操作系统设备驱动的实现方法,Hypervisor接管物理中断,客户操作系统中设置虚拟中断响应标志VIPending,客户操作系统以中断描述表table_vintr_desc描述所有中断;当外设中断产生后,Hypervisor首先屏蔽该外设中断,将客户操作系统中的虚拟中断响应标志VIPending设置为打开状态,接着将中断描述表table_vintr_desc中与该中断对应项的成员pending设置为表示该中断发生的状态,最后由客户操作系统调用该外设原有的中断服务程序对该中断事件进行处理。本发明方法复用了客户操作系统中已有的设备驱动,客户操作系统中的原有设备驱动框架保持不变,即访问设备时调用的程序,以及程序调用的流程都保持不变,这样使得设备的性能的损失最小。

    一种面向写穿透cache的SDRAM读写方法

    公开(公告)号:CN101425044A

    公开(公告)日:2009-05-06

    申请号:CN200810232131.7

    申请日:2008-11-06

    Abstract: 本发明涉及一种SDRAM读写方法,公开了一种面向写穿透cache的SDRAM读写方法。本发明主要是利用物理存储器SDRAM的single write特性,提出写合并机制,在减少CPU访问内存数据时间的同时,以提高SDRAM访问效率,该方法适合应用于对存储器访频繁问的使用多核SoC设计的多媒体处理芯片领域。

    一种0冗余编码时钟的位平面编码器的VLSI实现方法

    公开(公告)号:CN1564200A

    公开(公告)日:2005-01-12

    申请号:CN200410026018.5

    申请日:2004-04-07

    Abstract: 本发明公开了一种0冗余编码时钟的位平面编码器的VLSI实现方法,在JPEG2000位平面编码器的VLSI设计中,提供3个专用电路,通过“MSB”检测电路及状态变量生成电路,在待编码的象素点从码块存储器中取出的同时,通过“MSB”检测电路生成其在上下文编码中所需的状态变量,节省了状态变量存储器,同时也节省了存取状态变量存储器耗费的大量时钟。在PASS1编码时,通过无冗余时钟的列NBC索引判断和生成电路,使得在编码时的时钟消耗仅为1个判断时钟和编码时钟;在PASS3编码时,使用RLC,ZC和SC的流水实现的控制信号生成电路及列NBC索引判断和生成电路,使得在编码时的时钟消耗仅为1个判断时钟和编码时钟,通过这两个电路可以在编码时获得最快的编码速度,无时钟浪费。

Patent Agency Ranking