Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"李明豪" Page 1

1.

发明公开
一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有权

公开(公告)号：CN110399920A

公开(公告)日：2019-11-01

申请号：CN201910676439.9

申请日：2019-07-25

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 蒋琳 , 曹睿 , 李明豪 , 廖清 , 李化乐 , 张加佳 , 刘洋 , 夏文

IPC: G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质，该方法包括：探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

2.

发明授权
一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有权

公开(公告)号：CN110399920B

公开(公告)日：2021-07-27

申请号：CN201910676439.9

申请日：2019-07-25

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 蒋琳 , 曹睿 , 李明豪 , 廖清 , 李化乐 , 张加佳 , 刘洋 , 夏文

IPC: G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质，该方法包括：探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

Patent Agency Ranking