一种基于元强化学习的无人机自组网跨层路由方法

    公开(公告)号:CN117880171A

    公开(公告)日:2024-04-12

    申请号:CN202410051626.9

    申请日:2024-01-12

    Abstract: 本发明公开了一种基于元强化学习的无人机自组网自适应跨层路由方法,具体为:针对无人机自组织网在不同负载环境下的跨层路由问题,在训练阶段,无人机智能体与环境交互获得多个相关任务,输入至推理网络来捕获与当前任务相关的潜在上下文隐变量,再将其整合至每个智能体的策略之中以捕获当前任务的特征,并通过在上下文的后验分布来调节策略来进行自适应。本方法使用互信息网络来生成潜在上下文变量的先验分布,通过约束潜在变量和上下文之间的互信息,使得潜在变量可以包含对任务适应至关重要的基本上下文信息,从而减轻对训练任务过拟合的影响。为进一步探索各智能体最优的跨层路由策略,本方法通过将所有智能体的Q值输入至中央策略网络来获取系统Q值,从而学习到智能体之间最优的协作式跨层路由策略。相较于传统方法,本发明缩短了无人机自组网的数据包路由时间、降低了整个网络丢包率同时提升了整个网络吞吐量,为无人机网络提供了通信保障。

    一种基于图强化学习的移动自组网多智能体跨层路由方法

    公开(公告)号:CN117500014A

    公开(公告)日:2024-02-02

    申请号:CN202311408709.0

    申请日:2023-10-27

    Abstract: 本发明公开了一种基于图强化学习的移动自组网多智能体跨层路由方法,该方法为:首先初始化移动自组网的环境及其参数,将各个节点建模为智能体,建立MDP模型;然后智能体采用图注意力卷积的方式对邻域内各智能体观测编码的特征向量进行聚合;接着智能体计算选择的动作到达下一跳节点的时延,收到即时奖励,转移至下一个状态获得新的观测;使用DGN网络,每个智能体通过聚合邻居节点的信息,计算自己的动作价值函数Q值并输出;重复进行DGN网络更新,直至完成一次数据包传输任务,重置环境;采用经验回放和目标网络方法进行训练,直至系统平均奖励值收敛。本发明能够适应移动自组网高速变化的拓扑结构,平均传输时延低、速度快、稳定性高。

Patent Agency Ranking