基于不确定性感知分层强化学习的迷宫导航策略学习方法

    公开(公告)号:CN115860104A

    公开(公告)日:2023-03-28

    申请号:CN202211386351.1

    申请日:2022-11-07

    Abstract: 基于不确定性感知分层强化学习的迷宫导航策略学习方法,为了解决迷宫导航的分层强化学习训练阶段存在诸多不确定因素,导致分层强化学习的高层策略训练不稳定,使智能体决策准确率较低的问题,确定迷宫导航分层强化学习中影响高层策略训练稳定性的因素;获取迷宫导航的训练数据集;利用训练数据集对构建的动作不确定性估计网络进行训练,输入迷宫导航中智能体的状态和任务目标,输出伪子目标,得到训练好的动作不确定性估计网络;利用伪子目标约束分层强化学习高层策略的训练过程,得到子目标;利用子目标约束分层强化学习低层策略的训练过程,得到智能体的动作,计算低层策略的期望最大化平均奖励回报,回报值越大,迷宫导航策略学习越成功。

Patent Agency Ranking