-
公开(公告)号:CN112183288A
公开(公告)日:2021-01-05
申请号:CN202011002376.8
申请日:2020-09-22
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于模型的多智能体强化学习方法,属于多智能体强化学习领域,包括对多智能体环境和策略建模,生成多智能体的虚拟轨迹,利用虚拟轨迹更新多智能体的策略。本发明中各智能体分布式进行决策,分别对多智能体环境与对手智能体策略建模,并利用习得的模型生成虚拟轨迹,能够有效提高多智能体强化学习的采样效率,同时减少智能体交互次数降低设备损坏风险,提高了将分布式多智能体强化学习方法部署在多智能体任务的可行性。
-
公开(公告)号:CN112183288B
公开(公告)日:2022-10-21
申请号:CN202011002376.8
申请日:2020-09-22
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于模型的多智能体强化学习方法,属于多智能体强化学习领域,包括对多智能体环境和策略建模,生成多智能体的虚拟轨迹,利用虚拟轨迹更新多智能体的策略。本发明中各智能体分布式进行决策,分别对多智能体环境与对手智能体策略建模,并利用习得的模型生成虚拟轨迹,能够有效提高多智能体强化学习的采样效率,同时减少智能体交互次数降低设备损坏风险,提高了将分布式多智能体强化学习方法部署在多智能体任务的可行性。
-