-
公开(公告)号:CN113276883A
公开(公告)日:2021-08-20
申请号:CN202110464610.7
申请日:2021-04-28
Applicant: 南京大学
Abstract: 本发明公开一种基于动态生成环境的无人车行驶策略规划方法及实现装置,(1)在模拟器中构建无人驾驶环境。(2)初始化强化学习参数及网络策略模型。(3)与环境交互,收集无人驾驶车辆当前状态,由策略网络进行动作采样,在模拟器中执行动作并进入新的状态。(4)收集车辆在一段生成环境中的累积奖励以及是否成功完成任务,并建立一段新的生成环境。(5)对于车辆的行驶策略,在重复(3)中的操作采集一定强化学习样本后,进行强策略迭代。(6)对于车辆所面临的环境,将由(4)中所述的模式不断生成,并基于对是否成功以及累积奖励的收集,抽取那些失败道路以及低累积奖励道路的环境参数,在这些路段进行反复多次训练。(7)持续上述步骤训练直到策略收敛。
-
公开(公告)号:CN113276883B
公开(公告)日:2023-04-21
申请号:CN202110464610.7
申请日:2021-04-28
Applicant: 南京大学
Abstract: 本发明公开一种基于动态生成环境的无人车行驶策略规划方法及实现装置,(1)在模拟器中构建无人驾驶环境。(2)初始化强化学习参数及网络策略模型。(3)与环境交互,收集无人驾驶车辆当前状态,由策略网络进行动作采样,在模拟器中执行动作并进入新的状态。(4)收集车辆在一段生成环境中的累积奖励以及是否成功完成任务,并建立一段新的生成环境。(5)对于车辆的行驶策略,在重复(3)中的操作采集一定强化学习样本后,进行强策略迭代。(6)对于车辆所面临的环境,将由(4)中所述的模式不断生成,并基于对是否成功以及累积奖励的收集,抽取那些失败道路以及低累积奖励道路的环境参数,在这些路段进行反复多次训练。(7)持续上述步骤训练直到策略收敛。
-