基于元梯度算法对强化学习中多折扣因子的优化方法

    公开(公告)号:CN117764144A

    公开(公告)日:2024-03-26

    申请号:CN202311811250.9

    申请日:2023-12-26

    Inventor: 易苏阳 李笠

    Abstract: 本发明提出了一种基于元梯度算法对强化学习中多折扣因子的优化方法,用来处理单一折扣因子不能对折扣回报不同状态下进行分别优化的问题。将单一的折扣因子转换成多折扣因子,将对单一折扣因子的优化转换成对多折扣因子的优化,实现对折扣回报各个状态之间的分别优化,能够使得折扣回报的计算更加精确,同时由于折扣回报的计算精确,也会使得价值网络得到更有效的更新,优势函数也会计算的更加精确。由于优势函数计算更加精确,也会使得策略网络得到更有效的更新。

Patent Agency Ranking