基于人工势场和PPO的多智能体航路规划方法和装置

    公开(公告)号:CN118670400B

    公开(公告)日:2024-10-29

    申请号:CN202411156553.6

    申请日:2024-08-22

    Abstract: 本申请涉及基于人工势场和PPO的多智能体航路规划方法和装置,包括对智能体涉及算法的原始参数进行初始化处理;筛选出智能体待执行的下一个动作;使用人工势场函数获取智能体执行动作后的新的状态值;如果满足预设条件,则根据策略网络为智能体制定行动策略;如果未满足预设条件,则对经验库进行管理,根据管理后的经验库对策略网络进行训练,使用训练后的策略网络为智能体制定行动策略。通过使用非确定性策略的算法,克服人工势场的局部最优问题,跳出局部最优点,具有较强的环境适应性和鲁棒性;同时借助积极经验回放方法,加快强化学习方法在避障和路径规划过程中的收敛速度。

    基于人工势场和PPO的多智能体航路规划方法和装置

    公开(公告)号:CN118670400A

    公开(公告)日:2024-09-20

    申请号:CN202411156553.6

    申请日:2024-08-22

    Abstract: 本申请涉及基于人工势场和PPO的多智能体航路规划方法和装置,包括对智能体涉及算法的原始参数进行初始化处理;筛选出智能体待执行的下一个动作;使用人工势场函数获取智能体执行动作后的新的状态值;如果满足预设条件,则根据策略网络为智能体制定行动策略;如果未满足预设条件,则对经验库进行管理,根据管理后的经验库对策略网络进行训练,使用训练后的策略网络为智能体制定行动策略。通过使用非确定性策略的算法,克服人工势场的局部最优问题,跳出局部最优点,具有较强的环境适应性和鲁棒性;同时借助积极经验回放方法,加快强化学习方法在避障和路径规划过程中的收敛速度。

    一种基于课程学习的多智能体深度强化学习方法和装置

    公开(公告)号:CN116739077B

    公开(公告)日:2023-10-31

    申请号:CN202311029693.2

    申请日:2023-08-16

    Abstract: 本申请涉及一种基于课程学习的多智能体深度强化学习方法和装置。所述方法包括:基于作用半径,确定初始多智能体深度强化学习模型的环境;在初始多智能体深度强化学习模型的环境中,完成一次多智能体深度强化学习模型的训练;重复上述过程,直到多智能体深度强化学习模型完成一个时间节点的训练;重复多智能体深度强化学习模型时间节点的训练过程,得到待评估模型;计算待评估模型与环境交互所得的奖励值,根据奖励值的计算结果,更新作用半径,重复此步骤,直到得到完备多智能体深度强化学习模型。采用本方法能够解决因为占用计算机资源多而导致计算机处理课程任务的效率低的问题。

    一种基于课程学习的多智能体深度强化学习方法和装置

    公开(公告)号:CN116739077A

    公开(公告)日:2023-09-12

    申请号:CN202311029693.2

    申请日:2023-08-16

    Abstract: 本申请涉及一种基于课程学习的多智能体深度强化学习方法和装置。所述方法包括:基于作用半径,确定初始多智能体深度强化学习模型的环境;在初始多智能体深度强化学习模型的环境中,完成一次多智能体深度强化学习模型的训练;重复上述过程,直到多智能体深度强化学习模型完成一个时间节点的训练;重复多智能体深度强化学习模型时间节点的训练过程,得到待评估模型;计算待评估模型与环境交互所得的奖励值,根据奖励值的计算结果,更新作用半径,重复此步骤,直到得到完备多智能体深度强化学习模型。采用本方法能够解决因为占用计算机资源多而导致计算机处理课程任务的效率低的问题。

Patent Agency Ranking