一种基于分布式强化学习的自主设备决策控制方法

    公开(公告)号:CN114839879B

    公开(公告)日:2025-01-03

    申请号:CN202210553231.X

    申请日:2022-05-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于分布式强化学习的自主设备决策控制方法,包括训练环境搭建步骤,分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点,将自主设备仿真环境封装到容器镜像中,分配虚拟化资源。启动分布式智能体训练系统,初始化训练端模型参数,发送参数到缓存节点,再转发到采样节点,完成智能体与仿真环境的交互过程后,再回传数据到训练节点,使用离轨深度强化学习算法更新模型参数。分布式训练完成后,将模型从系统中导出,切换到快速推理模式,用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练,并且能够充分利用硬件资源,同时对于通信模式的改良能够显著减小带宽需求。

    一种基于多智能体强化学习的无人机集群协同学习方法

    公开(公告)号:CN112131660B

    公开(公告)日:2024-07-26

    申请号:CN202010944781.5

    申请日:2020-09-10

    Applicant: 南京大学

    Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。

    一种基于最大熵强化学习框架的无人驾驶车道保持方法

    公开(公告)号:CN113276852B

    公开(公告)日:2022-09-23

    申请号:CN202110375328.1

    申请日:2021-04-08

    Applicant: 南京大学

    Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

    一种基于多智能体强化学习的无人机集群高效通信方法

    公开(公告)号:CN113286275A

    公开(公告)日:2021-08-20

    申请号:CN202110441049.0

    申请日:2021-04-23

    Applicant: 南京大学

    Abstract: 本发明公开一种基于多智能体强化学习的无人机集群高效通信方法,构建无人机飞行环境模拟器;随机选取一架无人机作为队长并标记;每架无人机获取并维护本机的局部观测值,将自身观测值进行编码并发送给队长;队长根据每架无人机的自身观测值,分别对全局观测值进行attention注意力机制处理,根据信息的重要程度来决定信息的权重,继而将计算好的观测值发送给每个队友,作为队友的全局观测值;训练阶段以全局观测值作为训练数据,直到策略网络收敛;执行阶段以分布式的方式进行;对队长的存活给一个额外的奖励。本发明可以在通信开销较小的条件下解决无人机集群集中式信息交互的问题,给予无人机自主决策权。

    一种无人机自主跟拍运动目标的方法

    公开(公告)号:CN112131661B

    公开(公告)日:2024-07-23

    申请号:CN202010946929.9

    申请日:2020-09-10

    Applicant: 南京大学

    Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。

    结合图象识别与激光雷达点云分割的驾驶环境感知方法

    公开(公告)号:CN113269040B

    公开(公告)日:2024-07-19

    申请号:CN202110445391.8

    申请日:2021-04-25

    Applicant: 南京大学

    Abstract: 本发明公开一种结合图象识别与激光雷达点云分割的驾驶环境感知方法,包括:(1)在真实道路上,收集地面激光雷达点云数据和图像数据。(2)使用收集的图像数据作为参考,将激光雷达点云数据与图像数据进行标定,标记收集的激光雷达点云数据。(3)初始化点云分割网络,对标记的激光雷达点云数据进行训练,更新网络参数。(4)将训练好的网络移植到无人车工控机中,获得点云所属物体的类别。(5)对图像数据进行识别。(6)对分割后的激光雷达点云数据与图像识别后的图像数据进行融合,获取道路和物体所在的准确位置。本发明实时感知环境,克服了图像识别在天气不好、光线较差的情况下识别效果不佳的缺点。

    一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

    公开(公告)号:CN113110550B

    公开(公告)日:2022-09-23

    申请号:CN202110442229.0

    申请日:2021-04-23

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。

    一种基于分布式强化学习的自主设备决策控制方法

    公开(公告)号:CN114839879A

    公开(公告)日:2022-08-02

    申请号:CN202210553231.X

    申请日:2022-05-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于分布式强化学习的自主设备决策控制方法,包括训练环境搭建步骤,分布式训练步骤和输出决策模型步骤。在分布式集群中配置好采样节点、缓存节点和训练节点,将自主设备仿真环境封装到容器镜像中,分配虚拟化资源。启动分布式智能体训练系统,初始化训练端模型参数,发送参数到缓存节点,再转发到采样节点,完成智能体与仿真环境的交互过程后,再回传数据到训练节点,使用离轨深度强化学习算法更新模型参数。分布式训练完成后,将模型从系统中导出,切换到快速推理模式,用于智能决策问题。本发明在实施过程中能在较大规模分布式集群上进行训练,并且能够充分利用硬件资源,同时对于通信模式的改良能够显著减小带宽需求。

    基于强化学习的无人机对抗博弈训练控制方法

    公开(公告)号:CN113282100A

    公开(公告)日:2021-08-20

    申请号:CN202110464589.0

    申请日:2021-04-28

    Applicant: 南京大学

    Abstract: 本申请公开了一种基于强化学习的无人机对抗博弈训练控制方法,包括如下步骤:使主智能体与对手池中所有对手对战并统计所述主智能体的胜率;判断所述主智能体的胜率是否满足预设要求;如果所述主智能体的胜率满足预设要求,则根据所述主智能体的胜率选择对抗对手;使主智能体与所述对抗对手训练直至所述主智能体策略收敛。本申请的有益之处在于。本申请的有益之处在于提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。

    一种基于最大熵强化学习框架的无人驾驶车道保持方法

    公开(公告)号:CN113276852A

    公开(公告)日:2021-08-20

    申请号:CN202110375328.1

    申请日:2021-04-08

    Applicant: 南京大学

    Abstract: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

Patent Agency Ranking