-
公开(公告)号:CN118175551A
公开(公告)日:2024-06-11
申请号:CN202410243521.3
申请日:2024-03-04
Applicant: 南京理工大学
IPC: H04W16/18 , G06N3/0442 , G06N3/092 , H04W16/22 , H04W24/02 , H04W24/06 , H04W84/06 , H04L41/16 , H04B7/185
Abstract: 本发明公开了一种基于网络强化学习的无人机簇群节能抗干扰通信方法,该方法为:设定无人机簇群网络环境,初始化无人机簇群的神经网络参数和交互信息,簇头无人机与其所有邻居簇头无人机进行信息交互;簇头无人机根据NeurComm算法中信息提取函数下的贪婪策略执行相应的动作,计算空间折扣奖励,并将簇头无人机与环境交互的轨迹存入各自的经验池中;簇头无人机计算损失函数,更新Actor和Critic网络参数;判断是否达到最大训练步长,如果未达到则重复进行本回合训练,如果达到判断是否达到最大训练回合数或者收敛,如果是则结束训练;否则进行下一回合训练。本发明降低了无人机簇群的系统能耗,提高了无人机簇群的系统吞吐量、稳定性和抗干扰性能。
-
公开(公告)号:CN119519884A
公开(公告)日:2025-02-25
申请号:CN202411521389.4
申请日:2024-10-29
Applicant: 南京理工大学
IPC: H04K3/00 , G05D1/695 , G05D1/46 , G05D109/20
Abstract: 本发明公开了一种基于元强化学习的无人机集群抗干扰通信方法,该方法为:构建无人机集群抗干扰通信环境,初始化网络参数,生成多个元强化学习任务;从元训练集抽样任务,初始化环境、经验池、上下文采样池;各无人机将与环境交互的观测数据输入至用于上下文任务推理的编码器和长短期记忆网络模块,得到上下文任务信息和历史记忆,将其与智能体的当前观测拼接,作为双深度递归Q网络即DDRQN的输入,预测动作并与环境交互;最后判断环境是否达到最大训练步长,若达到则结束当前回合,进入元测试阶段;否则重复进行下一轮的训练。本发明具有可扩展性强、泛化性能强、学习效率高、稳定性强、传输能量损耗低、跳频开销少、网络寿命长的优点。
-