-
公开(公告)号:CN119476402A
公开(公告)日:2025-02-18
申请号:CN202411315203.X
申请日:2024-09-20
Applicant: 南京大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于形式化验证与解释的深度强化学习模型训练方法,包括:在形式化验证过程中,通过单次验证方法判断当前深度强化学习模型是否满足额外训练终止条件,若满足,终止训练;否则,通过间隙测量方法测量当前深度强化学习模型与额外训练终止条件之间的状态间隙;在解释过程中,通过基于敏感性分析方法的密度测量方法解释测量额外训练终止条件中定义的约束空间内状态特征的密度;在训练过程中,当前深度强化学习模型与环境交互,产生轨迹,存储于缓冲区;通过状态间隙和约束空间内状态特征密度的奖励重塑方法更新轨迹中的当前奖励值,并根据更新后的轨迹更新当前深度强化学习模型。本发明提高了深度强化学习模型的安全性和活性。