一种基于状态价值保留的QMIX强化学习方法

    公开(公告)号:CN117829249A

    公开(公告)日:2024-04-05

    申请号:CN202311578029.3

    申请日:2023-11-23

    Inventor: 王美华 吴耀丰

    Abstract: 本发明提供一种基于状态价值保留的QMIX强化学习方法,以QMIX算法框架构建状态价值保留的QMIX算法框架;将智能体网络与环境做交互并将相应的数据存入经验缓存池中;采样batch批次的数据,将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中;使用训练好的智能体网络与任务环境做交互,达到去中心化执行的目的。本发明对QMIX算法进行改进,通过考虑死亡智能体先前的贡献,来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响,引入注意力机制。通过对状态价值函数进行动态加权,使得死后智能体的状态价值函数能够自适应环境的变化,从而提升了合作对战的效果。

Patent Agency Ranking