Patent search ap:("上海交通大学") AND inv:"赵寒烨" Page 1

1.

发明授权
一种基于数据模仿和课程学习的离线强化学习方法有权

公开(公告)号：CN114219085B

公开(公告)日：2025-03-28

申请号：CN202111544237.2

申请日：2021-12-16

Applicant: 上海交通大学

Inventor： 张伟楠 , 刘明桓 , 赵寒烨

IPC: G06N3/092 , G06N3/047

Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法，涉及离线强化学习领域。该方法使用当前的学习到的策略，对数据集中的每条轨迹的每个数据点进行标记，标记为当前策略采样出该数据点的概率；对每条轨迹中的数据点排序；以beta分位点的数据作为该条轨迹的标记；无放回选择N条标记最大的轨迹；对选择的轨迹数据进行模仿学习；以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器；过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习，通过课程学习的方式，逐步从数据集中选择合适的数据进行学习，从而可以稳定学习到数据集中的最好表现的策略，且可以避免现有技术中存在的误差累积的问题。

2.

发明公开
一种基于数据模仿和课程学习的离线强化学习方法有权

公开(公告)号：CN114219085A

公开(公告)日：2022-03-22

申请号：CN202111544237.2

申请日：2021-12-16

Applicant: 上海交通大学

Inventor： 张伟楠 , 刘明桓 , 赵寒烨

IPC: G06N3/08 , G06N3/04 , G06K9/62

Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法，涉及离线强化学习领域。该方法使用当前的学习到的策略，对数据集中的每条轨迹的每个数据点进行标记，标记为当前策略采样出该数据点的概率；对每条轨迹中的数据点排序；以beta分位点的数据作为该条轨迹的标记；无放回选择N条标记最大的轨迹；对选择的轨迹数据进行模仿学习；以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器；过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习，通过课程学习的方式，逐步从数据集中选择合适的数据进行学习，从而可以稳定学习到数据集中的最好表现的策略，且可以避免现有技术中存在的误差累积的问题。

Patent Agency Ranking