-
公开(公告)号:CN120034931A
公开(公告)日:2025-05-23
申请号:CN202510233982.7
申请日:2025-02-28
Applicant: 上海航天测控通信研究所
IPC: H04W40/12 , H04B7/185 , H04L45/00 , H04L45/12 , H04L45/125 , H04L45/121 , G06N3/092 , H04W84/06
Abstract: 本发明涉及卫星网络通信技术领域,提供一种基于元强化学习的星地融合网络路由方法及系统,包括利用STK工具包构建并生成网络拓扑结构;创建存储训练样本的多任务经验池;定义确定最优路由的评价指标,并根据马尔科夫决策过程构建星地融合网络的状态空间、动作空间和奖励函数;在线神经网络确定当前状态Q值,在目标神经网络中Bellman方程更新状态Q值,采用经验回放和贪婪搜索方法进行训练并选择对应的智能体动作;初始化更新频率和更新步数,通过在多个网络结构并行训练实现最优路由策略。适用于星地融合网络中多任务应用环境,经过较少训练在新网络环境中实现最优的路由策略,合理利用网络资源,解决现有强化学习方法训练速度慢、多环境适应性问题。