-
公开(公告)号:CN113093727A
公开(公告)日:2021-07-09
申请号:CN202110250387.6
申请日:2021-03-08
Applicant: 哈尔滨工业大学(深圳)
IPC: G05D1/02
Abstract: 本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。
-
公开(公告)号:CN115164903A
公开(公告)日:2022-10-11
申请号:CN202210828716.5
申请日:2022-07-13
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明涉及一种基于局部路径点生成的分层无地图导航方法及装置。其中的方法包括:从传感器读取激光雷达数据和目标点相对位置数据;将激光雷达数据转化为局部障碍地图;将局部障碍地图和目标点相对位置输入局部路径点生成模块,得到局部路径点;将该局部路径点输入运动规划模块,输出移动机器人的控制速度;返回执行步骤S10,直至移动机器人到达目标点。其中的装置包括计算机装置,计算机装置包含计算机可读存储介质,其上储存有程序指令,程序指令被处理器执行时实施上述的方法。本发明能够解决“机器人冻结”和“局部极小区域”问题,无需生成、存储和维护高精度地图,可生成更短更优的路径,带来更好的学习性能,并可兼容不同传感器信息。
-
公开(公告)号:CN112947484A
公开(公告)日:2021-06-11
申请号:CN202110347180.0
申请日:2021-03-31
Applicant: 哈尔滨工业大学(深圳)
IPC: G05D1/02
Abstract: 本发明公开了一种基于强化学习和传统路径规划的密集行人环境下移动机器人的导航方法,采用传统路径规划和强化学习相结合的方式分别进行全局路径规划和局部路径规划。其中,使用强化学习的方法对环境中行人的复杂运动进行学习,从而实现移动机器人的自主避障,进而实现移动机器人在动态环境下的导航。本发明能够在密集行人环境下快速做出避障决策,拓展了移动机器人的应用场景。
-
公开(公告)号:CN115164903B
公开(公告)日:2024-11-29
申请号:CN202210828716.5
申请日:2022-07-13
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明涉及一种基于局部路径点生成的分层无地图导航方法及装置。其中的方法包括:从传感器读取激光雷达数据和目标点相对位置数据;将激光雷达数据转化为局部障碍地图;将局部障碍地图和目标点相对位置输入局部路径点生成模块,得到局部路径点;将该局部路径点输入运动规划模块,输出移动机器人的控制速度;返回执行步骤S10,直至移动机器人到达目标点。其中的装置包括计算机装置,计算机装置包含计算机可读存储介质,其上储存有程序指令,程序指令被处理器执行时实施上述的方法。本发明能够解决“机器人冻结”和“局部极小区域”问题,无需生成、存储和维护高精度地图,可生成更短更优的路径,带来更好的学习性能,并可兼容不同传感器信息。
-
公开(公告)号:CN113093727B
公开(公告)日:2023-03-28
申请号:CN202110250387.6
申请日:2021-03-08
Applicant: 哈尔滨工业大学(深圳)
IPC: G05D1/02
Abstract: 本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。
-
公开(公告)号:CN115496287A
公开(公告)日:2022-12-20
申请号:CN202211179911.6
申请日:2022-11-15
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明涉及一种基于仓储环境的多智能通信强化学习体路径规划方法和系统。其中的方法包括:生成地图,获取智能体的起始点、目标点和障碍物信息并输入至神经网络,通过观测值处理模块获得智能体的自身特征,采用基于贪心的优先级对智能体进行分配,基于邻接矩阵并根据分配的优先级为每个智能体挑选邻居智能体,每个智能体接收各自挑选出的邻居智能体的通信消息并形成邻居特征,根据邻居特征与自身特征形成最终特征,将最终特征输入到决策网络模块中以生成规划路径。本发明引入通信来缓解强化学习导致的环境不平稳性,通过优先级选取通信智能体以提高有效性,引入一个新的死锁检测机制使得智能体可跳出死锁。
-
-
-
-
-