Patent search ap:("上海交通大学") AND inv:"缪佳宇" Page 1

1.

发明授权
一种轨迹空间行列式点过程的强化学习探索和利用的方法有权

公开(公告)号：CN113239629B

公开(公告)日：2023-06-16

申请号：CN202110618757.7

申请日：2021-06-03

Applicant: 上海交通大学

Inventor： 缪佳宇 , 张伟楠

IPC: G06F30/27 , G06N3/006 , G06N3/0442 , G06N3/0455 , G06N3/084 , G06N3/092 , G06F111/08

Abstract: 本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法，涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中，增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间，鼓励种群中的智能体沿着不同的轨迹方向进行探索，然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现，在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法，并且可以生成多样的高回报策略，可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。

2.

发明公开
一种轨迹空间行列式点过程的强化学习探索和利用的方法有权

公开(公告)号：CN113239629A

公开(公告)日：2021-08-10

申请号：CN202110618757.7

申请日：2021-06-03

Applicant: 上海交通大学

Inventor： 缪佳宇 , 张伟楠

IPC: G06F30/27 , G06N3/00 , G06N3/04 , G06N3/08 , G06F111/08

Abstract: 本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法，涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中，增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间，鼓励种群中的智能体沿着不同的轨迹方向进行探索，然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现，在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法，并且可以生成多样的高回报策略，可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。

Patent Agency Ranking