-
公开(公告)号:CN114089627B
公开(公告)日:2023-09-15
申请号:CN202111170566.5
申请日:2021-10-08
Applicant: 北京师范大学
IPC: G05B13/04
Abstract: 本发明公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤:步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化;步骤2,策略动作选择;步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化;步骤4,基于重要性采样的平均反应策略网络优化,本发明的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络,能消除动作策略过度估计问题,有利于网络收敛;在经验池中采样经验数据来监督训练平均反应策略网络时,根据时间差分误差来赋予经验数据不同的采样权重,增大了重要经验数据被采样的概率,使网络学习更加高效,提高了平均反应策略的可靠性。
-
公开(公告)号:CN114781574A
公开(公告)日:2022-07-22
申请号:CN202210314256.4
申请日:2022-03-28
Applicant: 北京师范大学
Abstract: 本发明公开一种二人零和的非完全信息博弈策略评估方法,包括:步骤1,根据已知智能体策略构建非完全信息博弈树,根据博弈场景的具体规则将博弈信息映射到博弈树中相应节点;步骤2,从博弈树叶节点向根节点计算求解智能体的最佳响应策略作为对手的策略,并逐层逐节点计算对手用最佳响应策略博弈的期望收益值,即智能体策略的可利用度。本发明所述方法,通过计算智能体策略的可利用度来评估智能体博弈策略的优劣,策略的可利用度越小,则智能体策略越接近纳什均衡,能够避免以往使用人机对抗的方式来评估或者与一些基准AI智能体对弈进行评估时,因对手的水平不高或基准AI智能体策略较差的情况下对智能体策略的不准确评估。
-
公开(公告)号:CN114089627A
公开(公告)日:2022-02-25
申请号:CN202111170566.5
申请日:2021-10-08
Applicant: 北京师范大学
IPC: G05B13/04
Abstract: 本发明公开了基于双深度Q网络学习的非完全信息博弈策略优化方法。包括以下步骤:步骤1,网络初始化:构建两个深度Q网络Q1和Q2,并进行随机初始化;步骤2,策略动作选择;步骤3,基于双深度Q网络学习DDQN的最优反应策略网络优化;步骤4,基于重要性采样的平均反应策略网络优化,本发明的有益效果是通过引入DDQN算法来训练神经虚拟自我对局中的最优反应策略网络,能消除动作策略过度估计问题,有利于网络收敛;在经验池中采样经验数据来监督训练平均反应策略网络时,根据时间差分误差来赋予经验数据不同的采样权重,增大了重要经验数据被采样的概率,使网络学习更加高效,提高了平均反应策略的可靠性。
-
-