-
公开(公告)号:CN112162564B
公开(公告)日:2021-09-28
申请号:CN202011020765.3
申请日:2020-09-25
Applicant: 南京大学
Abstract: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
-
公开(公告)号:CN112131660A
公开(公告)日:2020-12-25
申请号:CN202010944781.5
申请日:2020-09-10
Applicant: 南京大学
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
-
公开(公告)号:CN112162564A
公开(公告)日:2021-01-01
申请号:CN202011020765.3
申请日:2020-09-25
Applicant: 南京大学
Abstract: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
-
公开(公告)号:CN112131661A
公开(公告)日:2020-12-25
申请号:CN202010946929.9
申请日:2020-09-10
Applicant: 南京大学
Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。
-
公开(公告)号:CN112131661B
公开(公告)日:2024-07-23
申请号:CN202010946929.9
申请日:2020-09-10
Applicant: 南京大学
IPC: G06F30/15 , G06F30/27 , G05B17/02 , G06F18/214 , G06N3/048
Abstract: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。
-
公开(公告)号:CN112051863A
公开(公告)日:2020-12-08
申请号:CN202011020526.8
申请日:2020-09-25
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机自主反侦察及躲避敌方攻击的方法,基于Unity3D构建模拟器,构建敌我双方攻击的对战场景;通过模拟器预留的人类玩家接口,与规则写好的少量对手进行有限回合对抗,收集无人机躲避敌方反侦察及攻击的解决方案的样本数据;利用收集到的人类玩家逃跑数据进行学习,通过强化学习中的模仿学习进行学习,得到预训练模型;基于预训练模型,通过强化学习算法PPO实现在模拟器中的逃跑能力学习;将训练好的无人机躲避侦察及攻击模型与人类玩家进行测试并迁移到现实环境中。本发明提出的无人机自主躲避攻击的解决方案,在现实场景中应用意义重大,可以在成本较低的前提下训练出较好的无人机躲避攻击的策略,能够实际应用于无人机飞行控制领域。
-
公开(公告)号:CN112131660B
公开(公告)日:2024-07-26
申请号:CN202010944781.5
申请日:2020-09-10
Applicant: 南京大学
IPC: G06F30/15 , G06F30/27 , G06F30/28 , G06F18/214 , G06N3/092 , G06N3/0464
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群协同学习方法,构造基于空气动力学的环境模拟器;每个无人机获取并维护本机的局部观测值;作为student,每个无人机获取并维护来自队友的建议观测值;作为teacher,为其他无人机给出指导值;基于本机局部观测值与从队友获取的建议观测值执行动作策略,获取奖励并转移到下一状态;基于MADDPG思想进行训练,直到值网络与策略网络收敛;执行阶段以分布式的方式进行,即每个无人机基于局部观测值和队友提供的建议观测值,通过动作策略执行。本发明可以在成本较低的前提下实现无人机集群之间观测值的互补,实现无人机单独自主决策,解决“主从”结构带来的通信问题。
-
-
-
-
-
-