基于行动者-评论家方法的机器人运动控制方法和装置

    公开(公告)号:CN105690392B

    公开(公告)日:2017-11-28

    申请号:CN201610232236.7

    申请日:2016-04-14

    Applicant: 苏州大学

    Inventor: 刘全 许丹 朱斐

    Abstract: 本发明公开了一种基于行动者‑评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。

    基于行动者-评论家方法的机器人运动控制方法和装置

    公开(公告)号:CN105690392A

    公开(公告)日:2016-06-22

    申请号:CN201610232236.7

    申请日:2016-04-14

    Applicant: 苏州大学

    Inventor: 刘全 许丹 朱斐

    CPC classification number: B25J9/1664

    Abstract: 本发明公开了一种基于行动者-评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。

Patent Agency Ranking