时序逻辑约束下基于强化学习的任务规划方法及相关装置

    公开(公告)号:CN114265674B

    公开(公告)日:2025-01-28

    申请号:CN202111155540.3

    申请日:2021-09-29

    Abstract: 本申请公开了一种时序逻辑约束下基于强化学习的任务规划方法及相关装置,方法包括将待规划任务转换为确定性有限自动机;基于确定性有限自动机及初始策略确定状态动作轨迹;将状态动作轨迹及各状态动作对的外部奖励输入前馈神经网络,通过前馈神经网络输出各状态动作对的内部奖励;基于各外部奖励以及各内部奖励确定初始策略的第一目标函数及第一返回值,并基于第一目标函数及第一返回值更新初始策略的策略参数以得到待规划任务对应的目标策略。本申请通过注意力机制捕捉任务的时序特性,从而执行端在稀疏奖励环境中能够快速学习带有时序关系的任务,从而能够在不同环境中解决LTL约束下的稀疏奖励问题,使得强化学习可以学习到最优策略。

    时序逻辑约束下基于强化学习的任务规划方法及相关装置

    公开(公告)号:CN114265674A

    公开(公告)日:2022-04-01

    申请号:CN202111155540.3

    申请日:2021-09-29

    Abstract: 本申请公开了一种时序逻辑约束下基于强化学习的任务规划方法及相关装置,方法包括将待规划任务转换为确定性有限自动机;基于确定性有限自动机及初始策略确定状态动作轨迹;将状态动作轨迹及各状态动作对的外部奖励输入前馈神经网络,通过前馈神经网络输出各状态动作对的内部奖励;基于各外部奖励以及各内部奖励确定初始策略的第一目标函数及第一返回值,并基于第一目标函数及第一返回值更新初始策略的策略参数以得到待规划任务对应的目标策略。本申请通过注意力机制捕捉任务的时序特性,从而执行端在稀疏奖励环境中能够快速学习带有时序关系的任务,从而能够在不同环境中解决LTL约束下的稀疏奖励问题,使得强化学习可以学习到最优策略。

Patent Agency Ranking