-
公开(公告)号:CN114815891B
公开(公告)日:2025-04-01
申请号:CN202210525303.X
申请日:2022-05-15
Applicant: 西北工业大学
IPC: G05D1/695 , G05D109/20
Abstract: 本发明提供了一种基于PER‑IDQN的多无人机围捕战术方法,对栅格数字地图和无人机运动模型进行建模,通过各无人机与环境的交互,采用深度Q网络算法对多无人机神经网络模型进行部署,并利用优先经验回放策略对算法模型进行优化,然后构建状态空间、动作空间、奖励函数对多无人机围捕战术模型进行针对性设计,最后构建的多无人机围捕战术模型能够在复杂障碍物环境下制定的有效的围捕战术,实现对机动目标的包围捕获。本发明能够实现对机动目标的围捕,有效提升了对经验样本的采样效率,改善复杂任务场景下无人机决策模型训练速率较慢的问题,最终构建的多无人机围捕战术模型稳定性更强,能够适用于复杂动态环境下的多无人机围捕和自主避障任务。
-
公开(公告)号:CN115097861B
公开(公告)日:2024-04-26
申请号:CN202210525305.9
申请日:2022-05-15
Applicant: 西北工业大学
IPC: G05D1/46
Abstract: 本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。
-
公开(公告)号:CN114815891A
公开(公告)日:2022-07-29
申请号:CN202210525303.X
申请日:2022-05-15
Applicant: 西北工业大学
IPC: G05D1/10
Abstract: 本发明提供了一种基于PER‑IDQN的多无人机围捕战术方法,对栅格数字地图和无人机运动模型进行建模,通过各无人机与环境的交互,采用深度Q网络算法对多无人机神经网络模型进行部署,并利用优先经验回放策略对算法模型进行优化,然后构建状态空间、动作空间、奖励函数对多无人机围捕战术模型进行针对性设计,最后构建的多无人机围捕战术模型能够在复杂障碍物环境下制定的有效的围捕战术,实现对机动目标的包围捕获。本发明能够实现对机动目标的围捕,有效提升了对经验样本的采样效率,改善复杂任务场景下无人机决策模型训练速率较慢的问题,最终构建的多无人机围捕战术模型稳定性更强,能够适用于复杂动态环境下的多无人机围捕和自主避障任务。
-
公开(公告)号:CN111667513B
公开(公告)日:2022-02-18
申请号:CN202010486053.4
申请日:2020-06-01
Applicant: 西北工业大学
IPC: G06T7/277
Abstract: 本发明涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法,通过对任务分解,初始化环境状态,神经网络参数等其他超参数,对神经网络进行训练。回合起始时,无人机执行行动改变速度和航向角,得到新的状态,并将每一回合的经验保存于经验池中作为学习样本,不断迭代更新神经网络的参数。当训练完成时,保存子任务训练好的神经网络参数,并迁移至下一任务场景下的无人机机动目标跟踪网络中,直到最终任务完成。
-
-
公开(公告)号:CN113093802A
公开(公告)日:2021-07-09
申请号:CN202110364100.2
申请日:2021-04-03
Applicant: 西北工业大学
Abstract: 本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
-
公开(公告)号:CN110673620B
公开(公告)日:2020-10-27
申请号:CN201911002811.4
申请日:2019-10-22
Applicant: 西北工业大学
Abstract: 本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔可夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。
-
公开(公告)号:CN110673620A
公开(公告)日:2020-01-10
申请号:CN201911002811.4
申请日:2019-10-22
Applicant: 西北工业大学
Abstract: 本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔可夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。
-
公开(公告)号:CN115097861A
公开(公告)日:2022-09-23
申请号:CN202210525305.9
申请日:2022-05-15
Applicant: 西北工业大学
IPC: G05D1/10
Abstract: 本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法,建立一种基于多智能体深度确定性策略梯度算法的框架,将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务,通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习,通过引入相关性指标对样本采样效率进行改进,最终,提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下,成功追踪接近目标,并实现对目标的包围捕获。本发明能够实现无人机自主决策,且各无人机产生的行为策略协同性更强,能够使多无人机学习到更为合理的围捕策略,提升多无人机围捕模型训练效率,且构建的多无人机决策模型具有更好的围捕性能。
-
公开(公告)号:CN113093802B
公开(公告)日:2022-08-02
申请号:CN202110364100.2
申请日:2021-04-03
Applicant: 西北工业大学
Abstract: 本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
-
-
-
-
-
-
-
-
-