一种用于大批量训练的优化器
    1.
    发明公开

    公开(公告)号:CN118643886A

    公开(公告)日:2024-09-13

    申请号:CN202410725259.6

    申请日:2024-06-06

    Abstract: 本发明提供了一种用于大批量训练的优化器,包括:梯度获取模块,用于获取批量样本下预设的损失函数的梯度gk,k表示迭代步数;加速度计算模块,用于计算梯度gk与梯度gk‑1的差值的指数移动平均,得到加速度ak,其中,梯度gk‑1为迭代步数为k‑1时的梯度;动量计算模块,用于计算梯度gk和加速度ak的加权和的指数移动平均,得到动量mk;二阶矩计算模块,用于计算梯度gk和加速度ak的加权和的平方的指数移动平均,得到二阶矩vk;等效动量计算模块,用于根据动量mk、二阶矩vk和模型的参数确定等效动量rk;参数更新模块,用于根据等效动量rk更新模型的参数。

Patent Agency Ranking