-
公开(公告)号:CN116468107A
公开(公告)日:2023-07-21
申请号:CN202310453463.2
申请日:2023-04-25
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于集成的合作多智能体深度强化学习方法,包括如下步骤:步骤1、演员评论家网络或者动作值网络的初始化;步骤2、获取局部观察;步骤3、合作多智能体系统在环境中的决策;步骤4、抽取转移样本;步骤5、训练演员评论家网络或者动作值网络;步骤6、重复步骤2‑5,直至训练结束。这种方法为每个智能体集成多个策略网络或者动作值网络,使得智能体依据能多个策略网络或者动作值网络集成的输出进行决策,以提升智能体决策的鲁棒性。该方法为集成的多个策略网络或者动作值网络使用不同的样本训练进行训练,保证了它们的多样性。有效提升智能体决策的鲁棒性,同时还具有良好的适用性。
-
公开(公告)号:CN116468108A
公开(公告)日:2023-07-21
申请号:CN202310453542.3
申请日:2023-04-25
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于目标Q值修正的合作多智能体深度Q学习方法,包括如下步骤:步骤1、Q网络和混合网络的构建与初始化;步骤2、智能体在环境中探索并收集转移样本;步骤3、抽取转移样本;步骤4、重置高估Q网络、低估Q网络、高估混合网络和低估混合网络的参数;步骤5、训练高估Q网络;步骤6、训练低估Q网络;步骤7、训练原始Q网络;步骤8、调整高估偏差系数和低估偏差系数;步骤9、重复步骤2‑步骤8,直至训练结束。这种方法为具有不同偏差程度的原始目标Q值计算出相应的修正量,有效解决目标Q值的估计偏差问题,并提升合作多智能体系统的性能。
-