-
公开(公告)号:CN114048833A
公开(公告)日:2022-02-15
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
公开(公告)号:CN114048833B
公开(公告)日:2023-01-17
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-