-
公开(公告)号:CN113189985B
公开(公告)日:2022-09-23
申请号:CN202110410291.1
申请日:2021-04-16
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。
-
公开(公告)号:CN118493381A
公开(公告)日:2024-08-16
申请号:CN202410569772.0
申请日:2024-05-09
Applicant: 南京大学
Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。
-
公开(公告)号:CN117689039A
公开(公告)日:2024-03-12
申请号:CN202311725468.2
申请日:2023-12-15
Applicant: 南京大学
Abstract: 本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,将机器人行走任务建模为一个马尔科夫决策过程 ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息;A表示动作空间,包含机器人能执行的所有动作;T表示状态转移函数,给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布;R表示奖励函数,给定了机器人在任意状态采取任意动作后所收到的奖励,γ表示折扣因子;机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为决策提供信息;机器人行走策略训练方法包括三个核心模块:基于乐观性原则的深度模型构建,基于深度模型的不确定性规划,以及机器人行走策略的训练。
-
公开(公告)号:CN113189985A
公开(公告)日:2021-07-30
申请号:CN202110410291.1
申请日:2021-04-16
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。
-
-
-