-
公开(公告)号:CN110119844A
公开(公告)日:2019-08-13
申请号:CN201910378476.1
申请日:2019-05-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置,旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型,根据当前动作变量和状态值生成下一时刻的预测状态值;基于动作变量、状态值、即时奖励,更新状态-动作值函数网络;基于环境感知模型获取预测轨迹,计算预测轨迹局部最优解,并进行微分动态规划,获取基于模型的最优决策;根据当前状态和策略,最小化状态-动作值函数,获取无模型决策;基于状态预测误差、奖励预测误差及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据信号的阈值选择路径决策。本发明在保证学习效率同时逐步提高决策速度。
-
公开(公告)号:CN110119844B
公开(公告)日:2021-02-12
申请号:CN201910378476.1
申请日:2019-05-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置,旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型,根据当前动作变量和状态值生成下一时刻的预测状态值;基于动作变量、状态值、即时奖励,更新状态‑动作值函数网络;基于环境感知模型获取预测轨迹,计算预测轨迹局部最优解,并进行微分动态规划,获取基于模型的最优决策;根据当前状态和策略,最小化状态‑动作值函数,获取无模型决策;基于状态预测误差、奖励预测误差及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据信号的阈值选择路径决策。本发明在保证学习效率同时逐步提高决策速度。
-