-
公开(公告)号:CN112755538B
公开(公告)日:2021-08-31
申请号:CN202110370381.2
申请日:2021-04-07
Applicant: 中国科学院自动化研究所
IPC: A63F13/822 , G06N20/00
Abstract: 本发明提供一种基于多智能体的实时战略游戏对局方法,包括:AERUCT搜索算法:根据当前的血量和胜率自适应的调整探索比,进行前向搜索,根据当前状态计算搜索方向的评估值,根据所述搜索方向的评估值来选择下一步搜索方向;所述AERUCT搜索算法为改进的UCT搜索算法;AERUCT搜索算法在小规模游戏场景中性能会有所提升,但由于大规模游戏场景搜索决策的节点数增多且受时间限制,UCTRL算法通过存储更新性能好的策略与AERUCT搜索的结果比较,评估选择胜率大的子节点,反向更新状态信息,如此反复,保证当前策略不差于之前的策略,使每个智能体更智能,提高学习能力。
-
公开(公告)号:CN118569391A
公开(公告)日:2024-08-30
申请号:CN202411052957.0
申请日:2024-08-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种多智能体博弈种群策略多样性提升方法及装置,涉及多智能体博弈对抗技术领域,所述方法基于博弈种群迭代算法生成不同概率分布的对手池,进行不同的训练任务,获得具有不同参数的前向决策模型,进而得到用于多智能体博弈的多样化的策略种群,实现了复杂的多参与方的多智能体博弈环境下的决策策略生成以及策略多样性的提升,使得多智能体在环境变量和对手策略未知的情况下进行博弈时,拥有种类更多且更为鲁棒的博弈种群策略。
-
公开(公告)号:CN118569391B
公开(公告)日:2024-12-06
申请号:CN202411052957.0
申请日:2024-08-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种多智能体博弈种群策略多样性提升方法及装置,涉及多智能体博弈对抗技术领域,所述方法基于博弈种群迭代算法生成不同概率分布的对手池,进行不同的训练任务,获得具有不同参数的前向决策模型,进而得到用于多智能体博弈的多样化的策略种群,实现了复杂的多参与方的多智能体博弈环境下的决策策略生成以及策略多样性的提升,使得多智能体在环境变量和对手策略未知的情况下进行博弈时,拥有种类更多且更为鲁棒的博弈种群策略。
-
公开(公告)号:CN112755538A
公开(公告)日:2021-05-07
申请号:CN202110370381.2
申请日:2021-04-07
Applicant: 中国科学院自动化研究所
IPC: A63F13/822 , G06N20/00
Abstract: 本发明提供通用的多智能体博弈算法,包括:AERUCT搜索算法:根据当前的血量和胜率自适应的调整探索比,进行前向搜索,根据当前状态计算搜索方向的评估值,根据所述搜索方向的评估值来选择下一步搜索方向;所述AERUCT搜索算法为改进的UCT搜索算法;AERUCT搜索算法在小规模游戏场景中性能会有所提升,但由于大规模游戏场景搜索决策的节点数增多且受时间限制,UCTRL算法通过存储更新性能好的策略与AERUCT搜索的结果比较,评估选择胜率大的子节点,反向更新状态信息,如此反复,保证当前策略不差于之前的策略,使每个智能体更智能,提高学习能力。
-
-
-