-
公开(公告)号:CN114219085B
公开(公告)日:2025-03-28
申请号:CN202111544237.2
申请日:2021-12-16
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法,涉及离线强化学习领域。该方法使用当前的学习到的策略,对数据集中的每条轨迹的每个数据点进行标记,标记为当前策略采样出该数据点的概率;对每条轨迹中的数据点排序;以beta分位点的数据作为该条轨迹的标记;无放回选择N条标记最大的轨迹;对选择的轨迹数据进行模仿学习;以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器;过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习,通过课程学习的方式,逐步从数据集中选择合适的数据进行学习,从而可以稳定学习到数据集中的最好表现的策略,且可以避免现有技术中存在的误差累积的问题。
-
公开(公告)号:CN115222043A
公开(公告)日:2022-10-21
申请号:CN202210826945.3
申请日:2022-07-13
Applicant: 上海交通大学
Abstract: 本发明公开了一种可迁移的基于示教和策略解耦的行为决策和状态规划学习算法,涉及强化学习领域,包括决策模块,规划模块和决策规划判别模块,所述规划模块基于环境的状态预测目标状态,并交由所述决策模块执行,利用监督学习;所述决策模块又称为逆环境模块,基于环境的状态和所述规划模块预测的目标状态输出决策信号,即动作;所述决策规划判别模块基于环境中采样的状态数据与专家示教数据进行对抗学习,给出用于所述规划模块学习的奖励信号。本发明提高了泛化性。
-
公开(公告)号:CN114219085A
公开(公告)日:2022-03-22
申请号:CN202111544237.2
申请日:2021-12-16
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法,涉及离线强化学习领域。该方法使用当前的学习到的策略,对数据集中的每条轨迹的每个数据点进行标记,标记为当前策略采样出该数据点的概率;对每条轨迹中的数据点排序;以beta分位点的数据作为该条轨迹的标记;无放回选择N条标记最大的轨迹;对选择的轨迹数据进行模仿学习;以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器;过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习,通过课程学习的方式,逐步从数据集中选择合适的数据进行学习,从而可以稳定学习到数据集中的最好表现的策略,且可以避免现有技术中存在的误差累积的问题。
-
-