一种高效的Transformer的量化压缩方法

    公开(公告)号:CN116306877A

    公开(公告)日:2023-06-23

    申请号:CN202211475716.8

    申请日:2022-11-23

    Abstract: 本发明提供了一种高效的Transformer的量化方法,包括:对Transformer模型进行训练后量化,获得预训练后的模型原始权重张量;对Transformer模型进行每通道量化,对每个通道的bit位数进行重分配;根据初始化量化函数对每通道进行量化得到量化缩放因子以及整型权重张量;利用分层激活重构误差最小化法和位分割算法缩放因子和整型权重张量进行优化。本发明的量化优化方法能够使Transformer的模型在低比特量化的情况下保持较高的精度。

Patent Agency Ranking