基于动态精度量化的神经网络模型训练加速方法及系统

    公开(公告)号:CN116187413A

    公开(公告)日:2023-05-30

    申请号:CN202211700187.7

    申请日:2022-12-28

    Applicant: 清华大学

    Abstract: 本发明提供一种基于动态精度量化的神经网络模型训练加速方法及系统,在神经网络模型训练开始前,将运算过程中涉及的数据矩阵分为逻辑上的小块;训练过程中,每块数据的量化范围及该块数据对应的梯度值计算其量化敏感度,并将敏感度以块与块之间的最优相对量化位宽表示;根据网络当前训练步数,确定当前所需的平均量化位宽目标;结合相对量化位宽、平均量化位宽目标,及预先设定的硬件所支持最大最小计算位宽参数,动态确定各块权重值及激活值数据的绝对量化位宽;将训练数据按照绝对量化位宽量化以得到低精度的量化后数据用于计算,完成神经网络模型的训练计算加速,本发明解决现有神经网络训练速度慢、难以直接得到量化位宽理论最优值的问题。

    面向极低精度训练的乘累加运算方法及装置

    公开(公告)号:CN119829007A

    公开(公告)日:2025-04-15

    申请号:CN202411728303.5

    申请日:2024-11-28

    Applicant: 清华大学

    Abstract: 本发明提供一种面向极低精度训练的乘累加运算方法及装置,方法包括:获取已运算部分和及待运算数据,待运算数据包括浮点、定点和对数数据格式中的一种或多种;若待运算数据中存在高精度浮点数,将高精度浮点数分解成两个低精度浮点数之和;解码待运算数据中浮点、定点和对数数据格式为符号、指数和尾数的统一格式,生成统一格式的输入数据;对统一格式的输入数据进行多项点积,实现不同精度数据格式的组合计算;采用提前随机舍入方法,将组合计算结果与已运算部分和进行相加。本发明可支持多种格式间的组合计算,利用提前随机舍入方法,在维持精度要求的前提下降低累加器位宽,相比现有的运算硬件,降低了运算成本,提高了极低精度下的训练效率。

Patent Agency Ranking