-
公开(公告)号:CN109794937A
公开(公告)日:2019-05-24
申请号:CN201910083609.2
申请日:2019-01-29
Applicant: 南京邮电大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于强化学习的足球机器人协作方法,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作;本发明通过在建立的强化学习基本模型设立奖惩机制,实现足球机器人可根据当前环境和奖惩机制来选择下一动作,并且通过足球机器人相互之间的通讯来进行学习和更新,有效提升了足球机器人的协作效率。
-
公开(公告)号:CN108563112A
公开(公告)日:2018-09-21
申请号:CN201810287224.3
申请日:2018-03-30
Applicant: 南京邮电大学
Abstract: 本发明公开了一种用于仿真足球机器人控球的控制方法,利用tile coding线性函数近似方法降低状态空间维度,足球机器人智能体模块在强化学习中选择Sarsa 算法,对策略进行在线打分,高分优先选择的原则训练选择一个最优策略,仿真结果表明Sarsa 算法可大大提高控球率。本发明基于Sarsa 算法来应用强化学习,在keepaway上实验,在一个小的任务中保持球员可长时间控球,达到高持球率,从而可加大多智能体之间传球协作或可找到合适的机会射门,加大得分胜率。
-
公开(公告)号:CN109794937B
公开(公告)日:2021-10-01
申请号:CN201910083609.2
申请日:2019-01-29
Applicant: 南京邮电大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于强化学习的足球机器人协作方法,所述方法包括:S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型,并设定所述强化学习基本模型的奖惩机制r;S2、基于足球机器人之间的距离和角度定义指定数量的状态变量;S3、设置足球机器人的可操作动作集,足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作;本发明通过在建立的强化学习基本模型设立奖惩机制,实现足球机器人可根据当前环境和奖惩机制来选择下一动作,并且通过足球机器人相互之间的通讯来进行学习和更新,有效提升了足球机器人的协作效率。
-
-