-
公开(公告)号:CN117689039A
公开(公告)日:2024-03-12
申请号:CN202311725468.2
申请日:2023-12-15
Applicant: 南京大学
Abstract: 本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,将机器人行走任务建模为一个马尔科夫决策过程 ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息;A表示动作空间,包含机器人能执行的所有动作;T表示状态转移函数,给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布;R表示奖励函数,给定了机器人在任意状态采取任意动作后所收到的奖励,γ表示折扣因子;机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为决策提供信息;机器人行走策略训练方法包括三个核心模块:基于乐观性原则的深度模型构建,基于深度模型的不确定性规划,以及机器人行走策略的训练。