-
公开(公告)号:CN114879660A
公开(公告)日:2022-08-09
申请号:CN202210393482.6
申请日:2022-04-14
Applicant: 海南大学
IPC: G05D1/02
Abstract: 本发明公开一种基于目标驱动的机器人环境感知方法,包括如下步骤:实时获取采集的环境信息;基于获取的环境信息更新现场地图和地图中的POI信息,并根据距离有限勘探评价方法从跟新后的POI信息中选择最佳路径点形成最优路径;将感知信息输入基于近端策略优化的深度神经网络中生成行为策略,并根据环境返回的奖赏值进行策略优化,所述感知信息包括环境信息、最优路径和机器人当前状态和动作;根据优化后的行为策略进行运动,直至到达预设的全局目标。本发明在实际中部署更容易,且在复杂的静态和动态环境下,不需要依赖地图或先验信息。
-
公开(公告)号:CN114879660B
公开(公告)日:2023-08-15
申请号:CN202210393482.6
申请日:2022-04-14
Applicant: 海南大学
IPC: G05D1/02
Abstract: 本发明公开一种基于目标驱动的机器人环境感知方法,包括如下步骤:实时获取采集的环境信息;基于获取的环境信息更新现场地图和地图中的POI信息,并根据距离有限勘探评价方法从跟新后的POI信息中选择最佳路径点形成最优路径;将感知信息输入基于近端策略优化的深度神经网络中生成行为策略,并根据环境返回的奖赏值进行策略优化,所述感知信息包括环境信息、最优路径和机器人当前状态和动作;根据优化后的行为策略进行运动,直至到达预设的全局目标。本发明在实际中部署更容易,且在复杂的静态和动态环境下,不需要依赖地图或先验信息。
-
公开(公告)号:CN113449458A
公开(公告)日:2021-09-28
申请号:CN202110798780.9
申请日:2021-07-15
Applicant: 海南大学
IPC: G06F30/25 , G06F30/27 , G06N3/00 , G06N20/00 , G06F111/04
Abstract: 本发明提供一种基于课程学习的多智能体深度确定性策略梯度方法,将课程学习与强化学习结合在一起,在通过经验回放池采样时,根据课程标准复杂度从经验回放池中按照优先权重采样数据,然后采用基于Adam优化器的深度确定性策略梯度方法对每个智能体进行训练,并更新策略网络、策略目标网络、评价网络以及评价目标网络,当多智能体在环境内动作的下一个状态不是终止状态时,对课程标准进行更新,根据更加复杂的课程重复进行迭代计算,课程标准中包含的优先标准函数反映样本的采样优先权重,重复采样惩罚考虑重复采样对样本多样性的影响,冗余信息惩罚可以降低智能体之间交互的信息冗余量,与其他算法相比,本发明提高了算法的收敛效率和最终奖励。
-
公开(公告)号:CN115933634A
公开(公告)日:2023-04-07
申请号:CN202211249081.X
申请日:2022-10-12
Applicant: 海南大学
IPC: G05D1/02
Abstract: 本方案涉及一种未知环境探索方法、系统、移动机器人及存储介质。所述方法包括:初始化移动机器人的各项参数,并获取全局目标位置;通过激光雷达传感器实时采集激光数据进行环境测绘,生成环境子地图;根据激光数据、环境子地图确定各个最优路径点,并在各个最优路径点之间进行局部导航,沿着局部导航路线移动,并重复采集激光数据,直到生成到达全局目标位置的目标导航路线;根据目标导航路线移动到全局目标位置处,生成目标环境地图。通过实时采集激光数据进行环境测绘,并确定最优路径点,可以进行局部导航使移动机器人逐渐移动到全局目标位置,并将移动过程中采集到的数据、环境子地图生成目标环境地图,缓解了局部最优的问题。
-
公开(公告)号:CN114910072A
公开(公告)日:2022-08-16
申请号:CN202210422011.3
申请日:2022-04-21
Applicant: 海南大学
Abstract: 本发明公开基于深度强化学习的无人机导航方法、装置、设备及介质。该方法包括如下步骤:实时获取无人机与环境的交互信息;将所述交互信息输入深度强化学习模型中,输出无人机最优动作,生成动作对应的操作指令;基于操作指令运行改变无人机的运动状态后获取环境给出的反馈信息;基于反馈信息采用随机梯度下降法以及损失函数来更新深度强化学习模型的参数,采用更新了网络参数的深度强化学习模型,继续获得最优动作。本发明可在高速动态环境下,自主规划路径,沿着无碰撞、高效的路径到达理想的目的地,同时实现空中无人机的无处不在的三维通信覆盖,保证无人机与地面站的通信质量,实现实时的数据传输。
-
-
-
-