-
公开(公告)号:CN113095500B
公开(公告)日:2023-04-07
申请号:CN202110348762.0
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于多智能体强化学习的机器人追捕方法,该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态,并通过基于值函数的近似策略迭代算法,训练得到两追一逃环境下的追捕策略,进而通过贪心决策算法扩展至多追多逃的情况,得到多追多逃情况下的最优追捕策略,该方法得到的追捕策略追捕成功率更高,从而使追捕过程更加高效、可靠。
-
公开(公告)号:CN113095500A
公开(公告)日:2021-07-09
申请号:CN202110348762.0
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于多智能体强化学习的机器人追捕方法,该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态,并通过基于值函数的近似策略迭代算法,训练得到两追一逃环境下的追捕策略,进而通过贪心决策算法扩展至多追多逃的情况,得到多追多逃情况下的最优追捕策略,该方法得到的追捕策略追捕成功率更高,从而使追捕过程更加高效、可靠。
-
公开(公告)号:CN113377099A
公开(公告)日:2021-09-10
申请号:CN202110348781.3
申请日:2021-03-31
Applicant: 南开大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于深度强化学习的机器人追逃博弈方法,包括:确定追逃双方智能体在含障碍物的追逃博弈场景中的约束条件;分别构建追逃双方智能体的回报函数;引入深度Q网络算法,并结合约束条件和回报函数,分别构建追逃双方智能体的初始追逃博弈模型;结合课程学习机制和自我对弈机制分别对追逃双方智能体的初始追逃博弈模型进行训练,并利用训练过程中的交互数据不断对追逃双方智能体的深度Q网络进行更新,得到追逃双方智能体的最终追逃博弈模型。本发明基于DQN的动作空间离散的追逃博弈算法,并结合自我对弈和课程学习的机制同时训练追捕者和逃跑者智能体,很大程度上优化了追捕者和逃跑者的输出策略。
-
-