-
公开(公告)号:CN113095488A
公开(公告)日:2021-07-09
申请号:CN202110471891.9
申请日:2021-04-29
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于多智能体最大熵强化学习的合作博弈方法,包括构建合作博弈模型、初始化状态以及各网络参数、与环境交互生成数据并存入经验重放池、从经验重放池中采样数据、计算损失函数和目标函数梯度以及软更新网络参数、随机博弈验证以及合作博弈方法实现这几个步骤。本发明将确定性的策略梯度算法改进为随机性的策略梯度算法,将最大熵模型运用到多智能体强化学习中,并与传统强化学习中的Actor‑Critic框架结合,简化了学习的过程;使用策略梯度算法直观地更新网络,可以更高效且稳定地达到训练要求;另外,使用了经验重放池,通过Off‑Policy的学习方法对网络进行训练,提高了采样效率。