基于变分循环网络模型的信念一致多智能体强化学习方法

    公开(公告)号:CN114037048B

    公开(公告)日:2024-05-28

    申请号:CN202111200399.4

    申请日:2021-10-15

    Abstract: 本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。

    基于变分循环网络模型的信念一致多智能体强化学习方法

    公开(公告)号:CN114037048A

    公开(公告)日:2022-02-11

    申请号:CN202111200399.4

    申请日:2021-10-15

    Abstract: 本发明提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。

Patent Agency Ranking