-
公开(公告)号:CN116468079B
公开(公告)日:2024-05-24
申请号:CN202310402508.3
申请日:2023-04-13
Applicant: 上海处理器技术创新中心
IPC: G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种用于训练深度神经网络模型的方法及相关产品,其中该方法包括:获取深度神经网络模型的线性层在前向传播期间和反向传播期间所涉及的全精度训练参数;对全精度训练参数进行自适应逐层缩放量化处理,以得到量化后的训练参数;以及在对深度神经网络模型的训练过程中,将每一线性层中针对全精度训练参数的全精度乘法累加处理操作,替换为对量化后的训练参数的加法处理操作和符号翻转处理操作,以实现对深度神经网络模型的低能耗训练。通过本发明的方案,有效降低深度神经网络训练过程中的能耗,同时确保精度损失较小。
-
公开(公告)号:CN116468079A
公开(公告)日:2023-07-21
申请号:CN202310402508.3
申请日:2023-04-13
Applicant: 上海处理器技术创新中心
IPC: G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种用于训练深度神经网络模型的方法及相关产品,其中该方法包括:获取深度神经网络模型的线性层在前向传播期间和反向传播期间所涉及的全精度训练参数;对全精度训练参数进行自适应逐层缩放量化处理,以得到量化后的训练参数;以及在对深度神经网络模型的训练过程中,将每一线性层中针对全精度训练参数的全精度乘法累加处理操作,替换为对量化后的训练参数的加法处理操作和符号翻转处理操作,以实现对深度神经网络模型的低能耗训练。通过本发明的方案,有效降低深度神经网络训练过程中的能耗,同时确保精度损失较小。
-