-
公开(公告)号:CN114355947A
公开(公告)日:2022-04-15
申请号:CN202210028141.9
申请日:2022-01-11
Applicant: 上海交通大学
IPC: G05D1/02
Abstract: 本发明涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;将设定环境下的机器人的任务需求描述成信号时序逻辑任务;设计鲁棒度;基于鲁棒度设计奖励函数;在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。与现有技术相比,本发明强化学习训练过程中使用到的奖励函数在体现信号时序逻辑任务的特征的基础上更具有合理性,使得路径规划结果更加合理、有效。
-
公开(公告)号:CN114355947B
公开(公告)日:2023-09-29
申请号:CN202210028141.9
申请日:2022-01-11
Applicant: 上海交通大学
IPC: G05D1/02
Abstract: 本发明涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;将设定环境下的机器人的任务需求描述成信号时序逻辑任务;设计鲁棒度;基于鲁棒度设计奖励函数;在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。与现有技术相比,本发明强化学习训练过程中使用到的奖励函数在体现信号时序逻辑任务的特征的基础上更具有合理性,使得路径规划结果更加合理、有效。
-