一种用于智能博弈推演的改进DS-PPO强化学习方法
Abstract:
本发明公开一种用于智能博弈推演的改进DS‑PPO强化学习方法。本发明为了使智能体能够在复杂的兵棋推演环境做出更加准确的决策,DS‑PPO针对兵棋推演环境的大规模的状态‑动作空间、环境不对称、随机性高等特点,首先引入了双状态输入机制和动作掩码机制,使得智能体能够更好的感知全局环境信息并规避无效动作。其次,对原有的损失函数进行重新设计,引入处理非法动作的掩码和自定义的熵损失,强化策略的探索性,避免智能体陷入局部最优解,减少策略更新的不稳定性。
Patent Agency Ranking
0/0