-
公开(公告)号:CN111950735B
公开(公告)日:2023-11-17
申请号:CN202010622636.5
申请日:2020-06-30
Applicant: 上海交通大学
Abstract: 一种基于双向模型的强化学习方法,用于机器人控制,其特征在于,包括:正向模型、反向模型、正向策略、反向策略,从某真实的状态开始,双向地生成轨迹,在三个阶段不断进行迭代:数据搜集阶段、模型学习阶段、策略优化阶段,直到算法收敛。本发明的有益效果是:双向模型相比于传统正向模型,在生成相同长度的虚拟轨迹的情况下的模型累积误差更小,且在进一步的仿真控制实验中,本发明的方法相比于之前的基于模型方法,无论采样效率还是渐进性能都更加优秀。
-
公开(公告)号:CN114114911B
公开(公告)日:2024-04-30
申请号:CN202111339236.4
申请日:2021-11-12
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。
-
公开(公告)号:CN114114911A
公开(公告)日:2022-03-01
申请号:CN202111339236.4
申请日:2021-11-12
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。
-
公开(公告)号:CN111950735A
公开(公告)日:2020-11-17
申请号:CN202010622636.5
申请日:2020-06-30
Applicant: 上海交通大学
Abstract: 一种基于双向模型的强化学习方法,用于机器人控制,其特征在于,包括:正向模型、反向模型、正向策略、反向策略,从某真实的状态开始,双向地生成轨迹,在三个阶段不断进行迭代:数据搜集阶段、模型学习阶段、策略优化阶段,直到算法收敛。本发明的有益效果是:双向模型相比于传统正向模型,在生成相同长度的虚拟轨迹的情况下的模型累积误差更小,且在进一步的仿真控制实验中,本发明的方法相比于之前的基于模型方法,无论采样效率还是渐进性能都更加优秀。
-
-
-