适用于离线强化学习的无监督数据生成框架

    公开(公告)号:CN118261228A

    公开(公告)日:2024-06-28

    申请号:CN202410391685.0

    申请日:2024-04-02

    Applicant: 清华大学

    Inventor: 季向阳 何舜成

    Abstract: 本申请涉及深度强化学习技术领域,特别涉及一种适用于离线强化学习的无监督数据生成框架,其中,框架包括:获取提供给智能体的多个策略网络;基于多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络,并利用训练完成的多个策略网络与环境交互获得多个数据集;根据离线强化学习的任务目标对多个数据集进行标注,并从标注后的多个数据集中选取满足目标条件的目标数据集,基于目标数据集进行离线强化学习,得到离线学习所学到的策略网络。由此,解决了相关技术中离线数据集的分布较窄,导致离线强化学习阶段的泛化性能差,当任务目标不可知时,无法学习得到最优策略等问题。

    基于瓦瑟斯坦距离的无监督强化学习方法及装置

    公开(公告)号:CN114219066A

    公开(公告)日:2022-03-22

    申请号:CN202111270803.5

    申请日:2021-10-29

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于瓦瑟斯坦距离的无监督强化学习方法及装置,该方法包括获取智能体的当前策略引导得到的轨迹里的状态分布;计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;根据瓦瑟斯坦距离计算智能体的伪回报,并以伪回报代替目标强化学习框架中的环境反馈的回报,引导智能体的当前策略与其他历史策略保持大的距离。该方法利用瓦瑟斯坦距离,来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。

Patent Agency Ranking