两团队零和博弈的多智能体强化学习方法

    公开(公告)号:CN118863006A

    公开(公告)日:2024-10-29

    申请号:CN202411093631.2

    申请日:2024-08-09

    Abstract: 本发明提供了一种两团队零和博弈的多智能体强化学习方法,实现两个团队的多个智能体能在零和博弈任务场景的合作对抗能力。所述方法包括:获取目标智能体当前时刻的数据;所述目标智能体当前时刻的数据包括目标智能体当前时刻的观测、其它智能体以及环境信息;基于所述目标智能体对应的当前时刻的数据,通过独立策略网络确定目标智能体个体的策略,选择决策动作。其中独立策略网络是基于联合Q网络、独立Q网络、独立熵评估网络、以及历史数据,由策略评估、熵评估和策略提升三部分迭代训练得到。本发明解决了现有技术中由于博弈复杂、维度爆炸和信誉分配等造成的数据利用率低、计算复杂度高和容易陷入局部最优的技术问题。

Patent Agency Ranking