Patent search ap:("上海交通大学") AND inv:"余尚禹" Page 1

1.

发明公开
基于强化学习的锚泊辅助动力定位系统控制方法有权

公开(公告)号：CN109240280A

公开(公告)日：2019-01-18

申请号：CN201810729080.2

申请日：2018-07-05

Applicant: 上海交通大学

Inventor： 王磊 , 李博 , 余尚禹

IPC: G05D1/02 , G06N3/04 , G06N3/08

Abstract: 本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法，包括：首先构建最优点选择问题的马尔科夫决策模型，构建状态空间与行为空间；采用神经网络构建强化学习模型Q函数，控制系统基于实时测量的锚泊辅助动力定位系统当前状态，采用ε贪心算法选择行为，观察在选择行为a后的系统状态s’与反馈奖励；将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库，并训练神经网络；通过不断重复上述过程，锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略，得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

2.

发明授权
基于强化学习的锚泊辅助动力定位系统控制方法有权

公开(公告)号：CN109240280B

公开(公告)日：2021-09-07

申请号：CN201810729080.2

申请日：2018-07-05

Applicant: 上海交通大学

Inventor： 王磊 , 李博 , 余尚禹

IPC: G05D1/02 , G06N3/04 , G06N3/08

Abstract: 本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法，包括：首先构建最优点选择问题的马尔科夫决策模型，构建状态空间与行为空间；采用神经网络构建强化学习模型Q函数，控制系统基于实时测量的锚泊辅助动力定位系统当前状态，采用ε贪心算法选择行为，观察在选择行为a后的系统状态s’与反馈奖励；将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库，并训练神经网络；通过不断重复上述过程，锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略，得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

Patent Agency Ranking