-
公开(公告)号:CN116456493A
公开(公告)日:2023-07-18
申请号:CN202310426343.3
申请日:2023-04-20
Applicant: 无锡学院
Abstract: 本发明公开了一种基于深度强化学习算法的D2D用户资源分配方法及存储介质,涉及无线通信技术领域。所述方法包括:构建无线网络模型,对D2D发射功率进行离散化处理;构建用户信噪比计算模型,以通信系统吞吐量最大为优化目标;设置预测策略网络π、预测价值网络Q、目标策略网络π′和目标价值网络Q';将D2D通信环境建模为马尔可夫决策过程,将D2D发射机视为智能体,循环加载目标策略网络的参数后生成策略与环境进行交互,确定状态空间、动作空间及奖励函数;采用MAAC算法对每个D2D用户进行策略优化;采用软更新方式循环更新目标策略网络和目标价值网络的参数,直至完成学习训练;D2D用户下载完成训练的目标策略网络的参数,进行策略改进。
-
公开(公告)号:CN116709546A
公开(公告)日:2023-09-05
申请号:CN202310429288.3
申请日:2023-04-20
Applicant: 无锡学院
IPC: H04W72/40
Abstract: 本发明公开了一种基于强化学习的能量收集D2D通信资源分配方法及存储介质,涉及无线通信技术领域。所述方法包括:构建无线网络模型;构建无线网络模型的优化问题;将优化问题转化为马尔可夫决策过程,确定智能体、状态空间、动作空间及奖励函数;采用深度强化学习方法,对每个智能体进行自主学习,得到通信资源分配方案;其中,所述深度强化学习方法中引入PPO算法限制更新幅度。相较于现有技术,本发明克服了传统通信终端仅依靠电池功能的限制,在高速传输信息的同时,通过PPO算法应对复杂多变的通信场景。
-