Patent search ap:("山东大学") AND inv:"张守良" Page 1

1.

发明授权
基于深度强化学习的机器人无地图路径规划方法及系统有权

公开(公告)号：CN115167478B

公开(公告)日：2024-04-26

申请号：CN202211014749.2

申请日：2022-08-23

Applicant: 山东大学

Inventor： 宋勇 , 张守良 , 庞豹 , 许庆阳 , 袁宪锋 , 李贻斌

IPC: G05D1/43 , G05D1/242 , G05D1/243 , G05D1/246 , G05D1/65 , G05D1/633 , G05D1/644 , G05D1/648 , G05D109/10

Abstract: 本公开提供了一种基于深度强化学习的机器人无地图路径规划方法及系统，其属于机器人无地图路径规划技术领域，包括：预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；构建基于LSTM网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。

2.

发明公开
基于深度强化学习的机器人无地图路径规划方法及系统有权

公开(公告)号：CN115167478A

公开(公告)日：2022-10-11

申请号：CN202211014749.2

申请日：2022-08-23

Applicant: 山东大学

Inventor： 宋勇 , 张守良 , 庞豹 , 许庆阳 , 袁宪锋 , 李贻斌

IPC: G05D1/02

Abstract: 本公开提供了一种基于深度强化学习的机器人无地图路径规划方法及系统，其属于机器人无地图路径规划技术领域，包括：预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；构建基于LSTM网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。

Patent Agency Ranking