一种用于智能博弈推演的改进DS-PPO强化学习方法

Invention Publication

CN119337959A 一种用于智能博弈推演的改进DS-PPO强化学习方法审中-实审

Please log in to see more content

Patent Title: 一种用于智能博弈推演的改进DS-PPO强化学习方法
Application No.: CN202411314182.X

Application Date: 2024-09-20
Publication No.: CN119337959A

Publication Date: 2025-01-21
Inventor: 王卫 , 于波 , 李顺 , 周晓磊 , 王鸿亮 , 王宁 , 刘东颖
Applicant: 中国科学院沈阳计算技术研究所有限公司
Applicant Address: 辽宁省沈阳市东陵区南屏东路16号
Assignee: 中国科学院沈阳计算技术研究所有限公司
Current Assignee: 中国科学院沈阳计算技术研究所有限公司
Current Assignee Address: 辽宁省沈阳市东陵区南屏东路16号
Agency: 沈阳科苑专利商标代理有限公司
Agent 周宇
Main IPC: G06N3/092
IPC: G06N3/092 ; G06N3/0442 ; G06N3/006 ; G06N5/04 ; G06Q50/26

Abstract:

本发明公开一种用于智能博弈推演的改进DS‑PPO强化学习方法。本发明为了使智能体能够在复杂的兵棋推演环境做出更加准确的决策，DS‑PPO针对兵棋推演环境的大规模的状态‑动作空间、环境不对称、随机性高等特点，首先引入了双状态输入机制和动作掩码机制，使得智能体能够更好的感知全局环境信息并规避无效动作。其次，对原有的损失函数进行重新设计，引入处理非法动作的掩码和自定义的熵损失，强化策略的探索性，避免智能体陷入局部最优解，减少策略更新的不稳定性。

Information query

Chinese Patent Announcement Global Dossier Espacenet