-
公开(公告)号:CN114781615A
公开(公告)日:2022-07-22
申请号:CN202210458582.2
申请日:2022-04-24
Applicant: 上海大学
Abstract: 本发明涉及一种基于压缩神经网络的二阶段量化实现方法及装置。该方法包括以下步骤:(1)根据神经网络的目标任务,使用CPU或GPU将神经网络模型训练至收敛。(2)根据目标任务所需的神经网络的压缩率,设置神经网络每层的目标稀疏度,逐阶段地对权值进行剪枝。(3)根据目标任务预设的量化位宽,二阶段地量化神经网络每层的权值,量化的第一阶段是聚类,使用聚类算法聚类神经网络每层的权值;第二阶段是放缩,根据目标任务预设的量化位宽,将得到的聚类中心放缩到定点数,最终结果以三元组的形式存储每层的权值矩阵。本发明能够减少模型所需的计算成本和存储成本,提升模型的推理速度,并且可以有效地弥补传统线性量化在低位宽下的精度损失。