基于强化学习的锚泊辅助动力定位系统控制方法

    公开(公告)号:CN109240280A

    公开(公告)日:2019-01-18

    申请号:CN201810729080.2

    申请日:2018-07-05

    Inventor: 王磊 李博 余尚禹

    Abstract: 本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法,包括:首先构建最优点选择问题的马尔科夫决策模型,构建状态空间与行为空间;采用神经网络构建强化学习模型Q函数,控制系统基于实时测量的锚泊辅助动力定位系统当前状态,采用ε贪心算法选择行为,观察在选择行为a后的系统状态s’与反馈奖励;将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库,并训练神经网络;通过不断重复上述过程,锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略,得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

    基于强化学习的锚泊辅助动力定位系统控制方法

    公开(公告)号:CN109240280B

    公开(公告)日:2021-09-07

    申请号:CN201810729080.2

    申请日:2018-07-05

    Inventor: 王磊 李博 余尚禹

    Abstract: 本发明提出了一种基于强化学习的锚泊辅助动力定位系统控制方法,包括:首先构建最优点选择问题的马尔科夫决策模型,构建状态空间与行为空间;采用神经网络构建强化学习模型Q函数,控制系统基于实时测量的锚泊辅助动力定位系统当前状态,采用ε贪心算法选择行为,观察在选择行为a后的系统状态s’与反馈奖励;将每一时间步的状态、行为、获得的奖励以及新的状态作为标签数据存入记忆库,并训练神经网络;通过不断重复上述过程,锚泊辅助动力定位系统能够获得使奖励函数最大的行为选择策略,得到定位点控制模式下能使推机器功率消耗最低的最佳定位点。

Patent Agency Ranking