-
公开(公告)号:CN116208510B
公开(公告)日:2024-12-10
申请号:CN202211598212.5
申请日:2022-12-12
Applicant: 重庆邮电大学
IPC: H04L41/142 , H04L41/14 , H04L41/16 , H04L41/0894 , H04W24/02 , G06F17/15 , G06F17/18
Abstract: 本发明请求保护一种基于深度强化学习的智能反射面元素智能激活方法,属于深度强化学习和智能反射面辅助通信领域。包括系统模型建立与目标问题建立、马尔可夫决策模型要素设置、算法框架搭建以及网络结构设计。根据考虑的通信场景建立系统模型并提出求解的目标问题;马尔可夫决策要素的设置主要是定义强化学习的智能体在与环境交互过程中涉及到的状态、动作以及奖励函数;采用基于演讲者‑评论者的深度强化学习经典算法框架,策略网络输出动作的同时利用评价网络辅助策略网络的梯度更新;调整策略网络以及评价网络的网络结构来应对智能反射面的引入带来的全连接结构对于信道状态信息提取不足的问题。本方法降低了利用传统通信算法迭代的复杂度。
-
公开(公告)号:CN116208510A
公开(公告)日:2023-06-02
申请号:CN202211598212.5
申请日:2022-12-12
Applicant: 重庆邮电大学
IPC: H04L41/142 , H04L41/14 , H04L41/16 , H04L41/0894 , H04W24/02 , G06F17/15 , G06F17/18
Abstract: 本发明请求保护一种基于深度强化学习的智能反射面元素智能激活方法,属于深度强化学习和智能反射面辅助通信领域。包括系统模型建立与目标问题建立、马尔可夫决策模型要素设置、算法框架搭建以及网络结构设计。根据考虑的通信场景建立系统模型并提出求解的目标问题;马尔可夫决策要素的设置主要是定义强化学习的智能体在与环境交互过程中涉及到的状态、动作以及奖励函数;采用基于演讲者‑评论者的深度强化学习经典算法框架,策略网络输出动作的同时利用评价网络辅助策略网络的梯度更新;调整策略网络以及评价网络的网络结构来应对智能反射面的引入带来的全连接结构对于信道状态信息提取不足的问题。本方法降低了利用传统通信算法迭代的复杂度。
-