-
公开(公告)号:CN117829249A
公开(公告)日:2024-04-05
申请号:CN202311578029.3
申请日:2023-11-23
Applicant: 华南农业大学
IPC: G06N3/092 , G06N3/045 , G06N3/0442
Abstract: 本发明提供一种基于状态价值保留的QMIX强化学习方法,以QMIX算法框架构建状态价值保留的QMIX算法框架;将智能体网络与环境做交互并将相应的数据存入经验缓存池中;采样batch批次的数据,将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中;使用训练好的智能体网络与任务环境做交互,达到去中心化执行的目的。本发明对QMIX算法进行改进,通过考虑死亡智能体先前的贡献,来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响,引入注意力机制。通过对状态价值函数进行动态加权,使得死后智能体的状态价值函数能够自适应环境的变化,从而提升了合作对战的效果。