-
公开(公告)号:CN114905510A
公开(公告)日:2022-08-16
申请号:CN202210472577.7
申请日:2022-04-29
Applicant: 南京邮电大学
IPC: B25J9/16
Abstract: 一种基于自适应近端优化的机器人动作方法,包括如下步骤,步骤S1.开始执行仿真训练任务,判断机器人数据迭代次数是否达到要求次数,若没有达到,则重置机器人到一个初始状态,使用策略运行机器人进行T步或达到目标状态,若达到,则使用来自当前迭代过程中的k组数据训练critical网络;步骤S2.使用GAE估算优势函数值,忽视优势函数值中为负的数据或将其转换为正值;步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差;步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。本方法在训练速度上的提升对于实际的动作训练帮助巨大。在执行三维连续动作的任务时稳定性明显优于其他方法。
-
公开(公告)号:CN114905510B
公开(公告)日:2023-07-28
申请号:CN202210472577.7
申请日:2022-04-29
Applicant: 南京邮电大学
IPC: B25J9/16
Abstract: 一种基于自适应近端优化的机器人动作方法,包括如下步骤,步骤S1.开始执行仿真训练任务,判断机器人数据迭代次数是否达到要求次数,若没有达到,则重置机器人到一个初始状态,使用策略运行机器人进行T步或达到目标状态,若达到,则使用来自当前迭代过程中的k组数据训练critical网络;步骤S2.使用GAE估算优势函数值,忽视优势函数值中为负的数据或将其转换为正值;步骤S3.使用过去H组迭代数据和损失函数获取k组数据训练策略方差;步骤S4.使用当前迭代数据和损失函数获取k组数据训练策略均值。本方法在训练速度上的提升对于实际的动作训练帮助巨大。在执行三维连续动作的任务时稳定性明显优于其他方法。
-