Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"吕少华" Page 1

1.

发明授权
基于注意力模型和深度强化学习的无人车行驶决策方法有权

公开(公告)号：CN112965499B

公开(公告)日：2022-11-01

申请号：CN202110251268.2

申请日：2021-03-08

Applicant: 哈尔滨工业大学(深圳)

Inventor： 陈美玲 , 李衍杰 , 刘奇 , 吕少华 , 许运鸿 , 刘悦丞

IPC: G05D1/02

Abstract: 本发明公开了一种基于注意力模型和深度强化学习的无人车行驶决策方法通过构建感知模块和决策模块完成无人车行驶决策任务，具体为：通过搭建自注意力模型和长短时记忆网络对感知模块进行建模，然后通过自动编码器模型对感知模块进行训练；利用卷积网络和全连接网络搭建决策模块，所述决策模块基于深度确定性策略算法。利用感知模块对观测数据进行降维，再利用深度强化学习决策模块进行策略学习，并通过引入优先经验回放的方法，提高数据样本的利用率，从而提高算法的训练速度。本发明方法通过在自动驾驶环境中进行模型训练后，可以在复杂的道路环境中安全行驶，并根据环境的变化制定合理的驾驶策略。

2.

发明公开
一种基于深度安全强化学习的机器人无地图导航方法有权

公开(公告)号：CN113093727A

公开(公告)日：2021-07-09

申请号：CN202110250387.6

申请日：2021-03-08

Applicant: 哈尔滨工业大学(深圳)

Inventor： 吕少华 , 李衍杰 , 许运鸿 , 刘奇 , 陈美玲 , 赵威龙 , 刘悦丞 , 庞玺政

IPC: G05D1/02

Abstract: 本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法，具体包括：初始化训练环境，设计移动机器人奖励函数和安全风险代价函数；利用传感器检测的图像信息和激光雷达信息，结合移动机器人的目标信息和运动信息，将各状态信息进行处理后经Actor网络输出决策动作到机器人，机器人执行Actor网络输出的动作，从环境中得到下一时刻新的状态观测及奖励信息，将机器人与环境交互得到的经验存入经验池，定期更新网络参数；判断是否训练结束，将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全（ACS）框架的深度安全强化学习，通过引入约束性策略优化（CPO）算法，提升了强化学习用于无地图导航任务的安全性。

3.

发明公开
基于注意力模型和深度强化学习的无人车行驶决策方法有权

公开(公告)号：CN112965499A

公开(公告)日：2021-06-15

申请号：CN202110251268.2

申请日：2021-03-08

Applicant: 哈尔滨工业大学(深圳)

Inventor： 陈美玲 , 李衍杰 , 刘奇 , 吕少华 , 许运鸿 , 刘悦丞

IPC: G05D1/02

Abstract: 本发明公开了一种基于注意力模型和深度强化学习的无人车行驶决策方法通过构建感知模块和决策模块完成无人车行驶决策任务，具体为：通过搭建自注意力模型和长短时记忆网络对感知模块进行建模，然后通过自动编码器模型对感知模块进行训练；利用卷积网络和全连接网络搭建决策模块，所述决策模块基于深度确定性策略算法。利用感知模块对观测数据进行降维，再利用深度强化学习决策模块进行策略学习，并通过引入优先经验回放的方法，提高数据样本的利用率，从而提高算法的训练速度。本发明方法通过在自动驾驶环境中进行模型训练后，可以在复杂的道路环境中安全行驶，并根据环境的变化制定合理的驾驶策略。

4.

发明授权
一种基于深度安全强化学习的机器人无地图导航方法有权

公开(公告)号：CN113093727B

公开(公告)日：2023-03-28

申请号：CN202110250387.6

申请日：2021-03-08

Applicant: 哈尔滨工业大学(深圳)

Inventor： 吕少华 , 李衍杰 , 许运鸿 , 刘奇 , 陈美玲 , 赵威龙 , 刘悦丞 , 庞玺政

IPC: G05D1/02

Abstract: 本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法，具体包括：初始化训练环境，设计移动机器人奖励函数和安全风险代价函数；利用传感器检测的图像信息和激光雷达信息，结合移动机器人的目标信息和运动信息，将各状态信息进行处理后经Actor网络输出决策动作到机器人，机器人执行Actor网络输出的动作，从环境中得到下一时刻新的状态观测及奖励信息，将机器人与环境交互得到的经验存入经验池，定期更新网络参数；判断是否训练结束，将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全（ACS）框架的深度安全强化学习，通过引入约束性策略优化（CPO）算法，提升了强化学习用于无地图导航任务的安全性。

5.

发明公开
一种基于深度强化学习的仓储系统多机器人路径规划方法有权

公开(公告)号：CN113110509A

公开(公告)日：2021-07-13

申请号：CN202110535242.0

申请日：2021-05-17

Applicant: 哈尔滨工业大学(深圳)

Inventor： 许运鸿 , 李衍杰 , 吕少华 , 刘奇 , 陈美玲 , 赵威龙 , 刘悦丞 , 高建琦

IPC: G05D1/02

Abstract: 本发明提供了一种基于深度强化学习的仓储系统多机器人路径规划方法，包括如下步骤：步骤S1：定义多机器人路径规划问题中的节点、状态、动作、奖励回报；步骤S2：选择子目标点，中央控制器计算每个机器人的状态；步骤S3：基于深度强化学习方法，设计分布式多机器人路径规划器；步骤S4：计算损失函数，对网络参数进行更新；步骤S5：将训练好的模型应用于多机器人路径规划。本发明的有益效果是：本发明能够解决传统路径规划算法实时性差的问题，并且容易拓展到不同地图规模、不同机器人数量的仓储系统中，具有良好的泛化性能。

6.

发明授权
一种基于深度强化学习的仓储系统多机器人路径规划方法有权

公开(公告)号：CN113110509B

公开(公告)日：2023-02-28

申请号：CN202110535242.0

申请日：2021-05-17

Applicant: 哈尔滨工业大学(深圳)

Inventor： 许运鸿 , 李衍杰 , 吕少华 , 刘奇 , 陈美玲 , 赵威龙 , 刘悦丞 , 高建琦

IPC: G05D1/02

Abstract: 本发明提供了一种基于深度强化学习的仓储系统多机器人路径规划方法，包括如下步骤：步骤S1：定义多机器人路径规划问题中的节点、状态、动作、奖励回报；步骤S2：选择子目标点，中央控制器计算每个机器人的状态；步骤S3：基于深度强化学习方法，设计分布式多机器人路径规划器；步骤S4：计算损失函数，对网络参数进行更新；步骤S5：将训练好的模型应用于多机器人路径规划。本发明的有益效果是：本发明能够解决传统路径规划算法实时性差的问题，并且容易拓展到不同地图规模、不同机器人数量的仓储系统中，具有良好的泛化性能。

7.

发明公开
一种密集行人环境下移动机器人的视觉导航方法及装置无效

公开(公告)号：CN112947484A

公开(公告)日：2021-06-11

申请号：CN202110347180.0

申请日：2021-03-31

Applicant: 哈尔滨工业大学(深圳)

Inventor： 刘奇 , 李衍杰 , 庞玺政 , 陈美玲 , 吕少华 , 陈时雨

IPC: G05D1/02

Abstract: 本发明公开了一种基于强化学习和传统路径规划的密集行人环境下移动机器人的导航方法，采用传统路径规划和强化学习相结合的方式分别进行全局路径规划和局部路径规划。其中，使用强化学习的方法对环境中行人的复杂运动进行学习，从而实现移动机器人的自主避障，进而实现移动机器人在动态环境下的导航。本发明能够在密集行人环境下快速做出避障决策，拓展了移动机器人的应用场景。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification