一种基于PER-IDQN的多无人机围捕战术方法

    公开(公告)号:CN114815891B

    公开(公告)日:2025-04-01

    申请号:CN202210525303.X

    申请日:2022-05-15

    Abstract: 本发明提供了一种基于PER‑IDQN的多无人机围捕战术方法,对栅格数字地图和无人机运动模型进行建模,通过各无人机与环境的交互,采用深度Q网络算法对多无人机神经网络模型进行部署,并利用优先经验回放策略对算法模型进行优化,然后构建状态空间、动作空间、奖励函数对多无人机围捕战术模型进行针对性设计,最后构建的多无人机围捕战术模型能够在复杂障碍物环境下制定的有效的围捕战术,实现对机动目标的包围捕获。本发明能够实现对机动目标的围捕,有效提升了对经验样本的采样效率,改善复杂任务场景下无人机决策模型训练速率较慢的问题,最终构建的多无人机围捕战术模型稳定性更强,能够适用于复杂动态环境下的多无人机围捕和自主避障任务。

    一种基于元强化学习并行训练算法的无人机飞行决策方法

    公开(公告)号:CN114895697B

    公开(公告)日:2024-04-30

    申请号:CN202210594911.6

    申请日:2022-05-27

    Abstract: 本发明提供了一种基于元强化学习并行训练算法的无人机飞行决策方法,首先构建无人机飞行控制模型;然后依据马尔科夫决策过程构建无人机飞行决策的状态空间、动作空间和奖励函数;接下来构建存放元强化学习算法训练样本数据的多任务经验池;再定义元强化学习算法参数并在多个环境并行训练实现无人机元强化学习决策模型;最后随机初始化新的飞行环境和无人机状态,测试基于元强化学习算法的无人机飞行决策模型,评价飞行决策性能。本发明通过在多个环境中对策略进行训练以解决SAC算法泛化性能不足的问题,能够整体优化无人机飞行决策策略,在新的环境中经过少步训练便可以收敛,能够有效提升策略的泛化能力和通用性。

    一种基于CEL-MADDPG的多无人机围捕策略方法

    公开(公告)号:CN115097861B

    公开(公告)日:2024-04-26

    申请号:CN202210525305.9

    申请日:2022-05-15

    Abstract: 本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。

    一种基于PER-IDQN的多无人机围捕战术方法

    公开(公告)号:CN114815891A

    公开(公告)日:2022-07-29

    申请号:CN202210525303.X

    申请日:2022-05-15

    Abstract: 本发明提供了一种基于PER‑IDQN的多无人机围捕战术方法,对栅格数字地图和无人机运动模型进行建模,通过各无人机与环境的交互,采用深度Q网络算法对多无人机神经网络模型进行部署,并利用优先经验回放策略对算法模型进行优化,然后构建状态空间、动作空间、奖励函数对多无人机围捕战术模型进行针对性设计,最后构建的多无人机围捕战术模型能够在复杂障碍物环境下制定的有效的围捕战术,实现对机动目标的包围捕获。本发明能够实现对机动目标的围捕,有效提升了对经验样本的采样效率,改善复杂任务场景下无人机决策模型训练速率较慢的问题,最终构建的多无人机围捕战术模型稳定性更强,能够适用于复杂动态环境下的多无人机围捕和自主避障任务。

    一种基于MADDPG的多无人机任务决策方法

    公开(公告)号:CN111880563B

    公开(公告)日:2022-07-15

    申请号:CN202010691504.8

    申请日:2020-07-17

    Abstract: 本发明公开了一种基于MADDPG的多无人机任务决策方法,将MADDPG算法引入到多无人机任务分配当中,首先根据多无人机实际作战环境,建立深度强化学习所需的二维作战环境模型,其次,建立多无人机作战环境中的防空导弹等多种威胁的数学描述,最后将多无人机的航迹、距离和战场的防御威胁作为约束条件,进行学习训练,进而得到多无人机任务决策模型。本方法采用了经验池和双网络结构,使得整个网络的运算与收敛速度大大提升,在无人机高速飞行的过程中,可以更快的得到结果,并且可以实现多无人机自主决策的目的,在未知的作战环境下也可以保证其任务决策的高效性。

    一种基于DDPG迁移学习的无人机机动目标跟踪方法

    公开(公告)号:CN111667513B

    公开(公告)日:2022-02-18

    申请号:CN202010486053.4

    申请日:2020-06-01

    Abstract: 本发明涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法,通过对任务分解,初始化环境状态,神经网络参数等其他超参数,对神经网络进行训练。回合起始时,无人机执行行动改变速度和航向角,得到新的状态,并将每一回合的经验保存于经验池中作为学习样本,不断迭代更新神经网络的参数。当训练完成时,保存子任务训练好的神经网络参数,并迁移至下一任务场景下的无人机机动目标跟踪网络中,直到最终任务完成。

    一种基于深度强化学习的无人机机动决策方法

    公开(公告)号:CN113093802A

    公开(公告)日:2021-07-09

    申请号:CN202110364100.2

    申请日:2021-04-03

    Abstract: 本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。

    一种基于迁移学习改进的PMADDPG多无人机任务决策方法

    公开(公告)号:CN111859541A

    公开(公告)日:2020-10-30

    申请号:CN202010691509.0

    申请日:2020-07-17

    Abstract: 本发明公开了一种基于迁移学习改进的PMADDPG多无人机任务决策方法。首先在多无人机实际作战环境背景下,针对环境中的防空导弹、雷达等威胁进行合理的数学建模,然后创建多个不同的二维作战环境模型,并且设计约束条件,依次对多个作战环境进行学习和训练,进而得到最终的多无人机任务分配模型。本发明方法克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷,在未知的作战环境下,也可以能够高效的进行决策,实现无人机的任务,大大保障了无人机群在未知作战环境中的生存能力。

    一种基于深度强化学习的四旋翼无人机航线跟随控制方法

    公开(公告)号:CN110673620B

    公开(公告)日:2020-10-27

    申请号:CN201911002811.4

    申请日:2019-10-22

    Abstract: 本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔可夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。

Patent Agency Ranking