-
公开(公告)号:CN117454965A
公开(公告)日:2024-01-26
申请号:CN202311173801.3
申请日:2023-09-12
Applicant: 北京理工大学
IPC: G06N3/092 , G06N3/0455 , G06N3/0499
Abstract: 本发明公开了基于随机Transformer模型的有模型深度强化学习方法,涉及强化学习技术领域。首先,首先使用分类分布的变分自动编码器将高维的环境数据编码为低维隐空间上的随机变量。其次,利用Transformer作为世界模型在低维的隐变量空间上实现对环境变化规律的建模,该世界模型具有仿真原始环境的能力,可以通过自回归的方式生成观察以及奖励。最后利用策略梯度算法在世界模型上进行智能体的训练。最终得到智能体性能、计算效率等方面均表现出色的有模型强化学习算法,对强化学习在现实环境中的高效部署具有非常重要的意义。