Patent search ap:("大连理工大学") AND inv:"孔令同" Page 1

1.

发明公开
一种基于强化学习的水下机器人避障路径规划方法有权

公开(公告)号：CN114625151A

公开(公告)日：2022-06-14

申请号：CN202210236892.X

申请日：2022-03-10

Applicant: 大连理工大学

Inventor： 覃振权 , 孔令同 , 卢炳先 , 王雷 , 朱明 , 孙伟峰

IPC: G05D1/06

Abstract: 一种基于强化学习的水下机器人避障路径规划方法，首先对水下机器人的能耗模型以及动力学模型，水下洋流场景模型进行建模；其次将水下机器人对到达路径点的能耗与时长最小化问题建模为抽象的马尔可夫决策过程；将当前水下机器人的观测信息通过抽象网络转到隐藏层成为隐藏状态，将隐藏状态和想采取的动作通过转移预测网络映射至下一隐藏向量和预测奖励，另外策略网络通过给定的隐藏向量选择采取的动作以及当前局面的总奖励，在这个场景中即为到达目标点。通过水下机器人与环境的不断交互学习环境模型，得到即时奖励改进神经网络。最后将训练好的策略网络部署到水下机器人中。

2.

发明授权
一种基于强化学习的水下机器人避障路径规划方法有权

公开(公告)号：CN114625151B

公开(公告)日：2024-05-28

申请号：CN202210236892.X

申请日：2022-03-10

Applicant: 大连理工大学

Inventor： 覃振权 , 孔令同 , 卢炳先 , 王雷 , 朱明 , 孙伟峰

IPC: G05D1/485 , G05D101/10

Abstract: 一种基于强化学习的水下机器人避障路径规划方法，首先对水下机器人的能耗模型以及动力学模型，水下洋流场景模型进行建模；其次将水下机器人对到达路径点的能耗与时长最小化问题建模为抽象的马尔可夫决策过程；将当前水下机器人的观测信息通过抽象网络转到隐藏层成为隐藏状态，将隐藏状态和想采取的动作通过转移预测网络映射至下一隐藏向量和预测奖励，另外策略网络通过给定的隐藏向量选择采取的动作以及当前局面的总奖励，在这个场景中即为到达目标点。通过水下机器人与环境的不断交互学习环境模型，得到即时奖励改进神经网络。最后将训练好的策略网络部署到水下机器人中。

Patent Agency Ranking