Patent search ap:("中国科学院自动化研究所") AND inv:"胡光政" Page 1

1.

发明公开
两团队零和博弈的多智能体强化学习方法审中-实审

公开(公告)号：CN118863006A

公开(公告)日：2024-10-29

申请号：CN202411093631.2

申请日：2024-08-09

Applicant: 中国科学院自动化研究所

Inventor： 朱圆恒 , 胡光政 , 赵冬斌

IPC: G06N3/092 , G06N3/045 , G06N5/04

Abstract: 本发明提供了一种两团队零和博弈的多智能体强化学习方法，实现两个团队的多个智能体能在零和博弈任务场景的合作对抗能力。所述方法包括：获取目标智能体当前时刻的数据；所述目标智能体当前时刻的数据包括目标智能体当前时刻的观测、其它智能体以及环境信息；基于所述目标智能体对应的当前时刻的数据，通过独立策略网络确定目标智能体个体的策略，选择决策动作。其中独立策略网络是基于联合Q网络、独立Q网络、独立熵评估网络、以及历史数据，由策略评估、熵评估和策略提升三部分迭代训练得到。本发明解决了现有技术中由于博弈复杂、维度爆炸和信誉分配等造成的数据利用率低、计算复杂度高和容易陷入局部最优的技术问题。

Patent Agency Ranking