-
公开(公告)号:CN118396131A
公开(公告)日:2024-07-26
申请号:CN202410487199.9
申请日:2024-04-23
Applicant: 大连理工大学
Abstract: 本发明属于强化学习与自动驾驶领域,涉及一种基于风险估计的强化学习自动驾驶安全可解释决策方法。本发明包括以下步骤:基于Gym库搭建仿真环境并设置状态和动作空间;根据约束马尔可夫决策过程建模以处理安全约束;设置奖励函数;构建独立的风险估计模块和预期奖励估计模块;使用一个动态权衡参数结合两个网络以选择符合安全约束的最优动作;对联合后的决策网络进行训练,得到训练好的安全自动驾驶决策网络;对驾驶过程中某一状态下的环境特征计算风险显著性度量,实现风险可解释;在验证环境中进行应用。相较于现有方法,本发明从风险角度解决了传统强化学习自动驾驶方法不可解释的问题,利用动态权衡参数实现了安全最优动作的选择。