-
公开(公告)号:CN116300953A
公开(公告)日:2023-06-23
申请号:CN202310346192.0
申请日:2023-04-03
Applicant: 西北工业大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于强化学习的柔性约束多智能体系统运动规划方法,由以下步骤组成:步骤1:采用离散状态点间欧几里得距离为代价的搜索分别计算得到目标状态到构型空间内各个状态的代价,步骤2:基于目标状态到构型空间内各个离散区间的特征状态的代价设置奖励函数,步骤3:基于Actor‑Critic框架的强化学习算法对系统进行训练,并统计成功率,步骤4:当成功率≥上限阈值,计算奖励函数中优化项的占比,步骤5:当优化项的占比≥时,输出奖励最大的回合经过的状态轨迹;本发明降低了复杂环境下训练使用的数据量,缩减了训练时间,确保了相关指标的优化效果,提高了训练的成功率,提高了算法稳定性。