基于Q-learning的最优策略获取方法及装置

    公开(公告)号:CN113887736A

    公开(公告)日:2022-01-04

    申请号:CN202111114741.9

    申请日:2021-09-23

    Applicant: 南京大学

    Abstract: 本申请提供基于Q‑learning的最优策略获取方法及装置。所述方法包括:从当前场景的起始状态开始,根据各个可执行动作所对应的当前Q值确定目标动作后,利用贝尔曼方程更新当前状态下每个可执行动作所对应的当前Q值,再控制智能体执行目标动作,以得到下一候选状态,直至到达终止状态或触碰到当前场景的边界,结束当前控制过程,获取当前控制过程所得的累加回报值,如此重复控制,最终将累加回报值最大的目标控制过程中智能体经过的所有候选状态,确定为从起始状态到终止状态的最优策略。整个过程通过并行更新当前状态下所有可执行动作的当前Q值,可以加快Q表的收敛速率,缩短训练时间,进而提高最优策略的获取效率。

Patent Agency Ranking