-
公开(公告)号:CN113377099A
公开(公告)日:2021-09-10
申请号:CN202110348781.3
申请日:2021-03-31
Applicant: 南开大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于深度强化学习的机器人追逃博弈方法,包括:确定追逃双方智能体在含障碍物的追逃博弈场景中的约束条件;分别构建追逃双方智能体的回报函数;引入深度Q网络算法,并结合约束条件和回报函数,分别构建追逃双方智能体的初始追逃博弈模型;结合课程学习机制和自我对弈机制分别对追逃双方智能体的初始追逃博弈模型进行训练,并利用训练过程中的交互数据不断对追逃双方智能体的深度Q网络进行更新,得到追逃双方智能体的最终追逃博弈模型。本发明基于DQN的动作空间离散的追逃博弈算法,并结合自我对弈和课程学习的机制同时训练追捕者和逃跑者智能体,很大程度上优化了追捕者和逃跑者的输出策略。
-
公开(公告)号:CN113095463A
公开(公告)日:2021-07-09
申请号:CN202110351009.7
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于进化强化学习的机器人对抗方法,包括:构建基于深度强化学习的机器人对抗策略;所述对抗策略为深度确定性策略梯度算法DDPG;结合进化算法与所述对抗策略,形成进化深度确定性策略梯度算法EDDPG;利用算法DDPG和算法EDDPG训练后的策略网络模型作为控制器,控制机器人与由基于威胁指数的对抗策略控制的机器人进行对抗。该方法考虑使用进化强化学习方法,它是深度强化学习与进化思想的结合,其中,深度强化学习方法无需建模,可以实现对机器人端到端的控制,且具有一定的泛化能力,能够有效解决现有方法存在的问题,进化思想则利用种群提高强化学习的探索能力和稳定性。
-