一种对抗式模仿学习中奖励函数的选择方法

    公开(公告)号:CN111401556A

    公开(公告)日:2020-07-10

    申请号:CN202010323155.4

    申请日:2020-04-22

    Inventor: 李秀 王亚伟 张明

    Abstract: 本发明提供一种对抗式模仿学习中奖励函数的选择方法,包括如下步骤:构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数;获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中;控制策略网络的输入为仿真环境返回的状态,输出为决策动作;判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新;在计算奖励的阶段,判别网络的输入是策略网络的状态动作对,输出值是经过奖励函数计算得到的奖励值;根据不同奖励函数的性能指标的大小选择当前任务的奖励函数;保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习,进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

    一种对抗式模仿学习中奖励函数的选择方法

    公开(公告)号:CN111401556B

    公开(公告)日:2023-06-30

    申请号:CN202010323155.4

    申请日:2020-04-22

    Inventor: 李秀 王亚伟 张明

    Abstract: 本发明提供一种对抗式模仿学习中奖励函数的选择方法,包括如下步骤:构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数;获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中;控制策略网络的输入为仿真环境返回的状态,输出为决策动作;判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新;在计算奖励的阶段,判别网络的输入是策略网络的状态动作对,输出值是经过奖励函数计算得到的奖励值;根据不同奖励函数的性能指标的大小选择当前任务的奖励函数;保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习,进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

    基于状态轨迹的对抗式模仿学习方法及装置

    公开(公告)号:CN111856925B

    公开(公告)日:2021-12-03

    申请号:CN202010489159.X

    申请日:2020-06-02

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

    基于对抗学习的控制策略模仿学习方法及装置

    公开(公告)号:CN111488988B

    公开(公告)日:2021-10-29

    申请号:CN202010302194.6

    申请日:2020-04-16

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。

    基于状态轨迹的对抗式模仿学习方法及装置

    公开(公告)号:CN111856925A

    公开(公告)日:2020-10-30

    申请号:CN202010489159.X

    申请日:2020-06-02

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

    基于对抗学习的控制策略模仿学习方法及装置

    公开(公告)号:CN111488988A

    公开(公告)日:2020-08-04

    申请号:CN202010302194.6

    申请日:2020-04-16

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。

Patent Agency Ranking