-
公开(公告)号:CN110399920A
公开(公告)日:2019-11-01
申请号:CN201910676439.9
申请日:2019-07-25
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质,该方法包括:探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是:本发明通过基线函数解决策略梯度算法经常出现的高方差问题,对于强化学习采样和优化过程时间复杂度高的问题,采取并行机制提高模型求解效率,通过自驱动机制,在弥补环境奖励值稀疏的同时,帮助智能体更有效地对环境进行探索。
-
公开(公告)号:CN110399920B
公开(公告)日:2021-07-27
申请号:CN201910676439.9
申请日:2019-07-25
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质,该方法包括:探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是:本发明通过基线函数解决策略梯度算法经常出现的高方差问题,对于强化学习采样和优化过程时间复杂度高的问题,采取并行机制提高模型求解效率,通过自驱动机制,在弥补环境奖励值稀疏的同时,帮助智能体更有效地对环境进行探索。
-