一种基于注意力机制的兵棋推演AI分层决策方法及装置

    公开(公告)号:CN114662655B

    公开(公告)日:2024-07-16

    申请号:CN202210192161.X

    申请日:2022-02-28

    Abstract: 本发明公开了一种基于注意力机制的兵棋推演AI分层决策方法及装置,包括进行分层网络建模与强化学习智能体建模,获取到态势推演初始数据进行预处理;获通过智能体局部观察数据,输出当前所有智能体的总体目标;通过智能体局部观察数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述新旧态势之间的差别计算奖励并训练网络,本发明能够有效的解决兵棋推演环境的动态性问题以及稀疏奖励问题,使AI能够实现自主决策,对不同的想定具有一定的适应能力与较高的胜率。

    一种基于注意力机制的兵棋推演AI分层决策方法及装置

    公开(公告)号:CN114662655A

    公开(公告)日:2022-06-24

    申请号:CN202210192161.X

    申请日:2022-02-28

    Abstract: 本发明公开了一种基于注意力机制的兵棋推演AI分层决策方法及装置,包括进行分层网络建模与强化学习智能体建模,获取到态势推演初始数据进行预处理;获通过智能体局部观察数据,输出当前所有智能体的总体目标;通过智能体局部观察数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述新旧态势之间的差别计算奖励并训练网络,本发明能够有效的解决兵棋推演环境的动态性问题以及稀疏奖励问题,使AI能够实现自主决策,对不同的想定具有一定的适应能力与较高的胜率。

Patent Agency Ranking