-
公开(公告)号:CN118493381A
公开(公告)日:2024-08-16
申请号:CN202410569772.0
申请日:2024-05-09
Applicant: 南京大学
Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。