Patent search ap:("华南农业大学") AND inv:"吴耀丰" Page 1

1.

发明公开
一种基于状态价值保留的QMIX强化学习方法审中-实审

公开(公告)号：CN117829249A

公开(公告)日：2024-04-05

申请号：CN202311578029.3

申请日：2023-11-23

Applicant: 华南农业大学

Inventor： 王美华 , 吴耀丰

IPC: G06N3/092 , G06N3/045 , G06N3/0442

Abstract: 本发明提供一种基于状态价值保留的QMIX强化学习方法，以QMIX算法框架构建状态价值保留的QMIX算法框架；将智能体网络与环境做交互并将相应的数据存入经验缓存池中；采样batch批次的数据，将智能体网络输出的状态‑动作值函数、历史轨迹信息一起输入进状态价值保留混合网络中；使用训练好的智能体网络与任务环境做交互，达到去中心化执行的目的。本发明对QMIX算法进行改进，通过考虑死亡智能体先前的贡献，来保留死亡智能体的状态价值。全面考虑死后智能体的状态价值在全局时空上的影响，引入注意力机制。通过对状态价值函数进行动态加权，使得死后智能体的状态价值函数能够自适应环境的变化，从而提升了合作对战的效果。

Patent Agency Ranking