一种基于扩散的双生成回放的持续离线强化学习方法

    公开(公告)号:CN117634647A

    公开(公告)日:2024-03-01

    申请号:CN202311656001.7

    申请日:2023-12-04

    Applicant: 南京大学

    Abstract: 一种基于扩散的双生成回放的持续离线强化学习方法,首先将持续学习策略解耦为基于扩散的行为生成模型和多头动作评估模型;其次,训练任务‑条件扩散模型来模拟旧任务的状态分布,生成的状态与行为生成模型的相应响应配对,以用高保真回放的伪样本表示旧任务;最后,通过将伪样本与新任务的真实样本交错,不断更新状态和行为生成模型以建模逐渐多样化的行为,并以行为克隆方式规范多头动作评估模型以减少遗忘。本发明提出一种双重生成回放框架,通过生成的伪数据的并发回放来保留旧任务的知识,实验证明了本发明方法在持续离线学习中实现了更好的前向迁移并保持更少的遗忘,并且由于其样本空间的高保真回放而非常接近使用旧任务真实数据的结果。

Patent Agency Ranking