Patent search ap:("南开大学") AND inv:"王晨飞" Page 1

1.

发明公开
基于最大熵强化学习算法的模型训练方法及规划制导方法有权

公开(公告)号：CN118607613A

公开(公告)日：2024-09-06

申请号：CN202411075546.3

申请日：2024-08-07

Applicant: 南开大学

Inventor： 张晓宇 , 王晨飞 , 刘烨坤 , 董飞

IPC: G06N3/092 , G06N3/045 , G06N3/084 , G05D1/683

Abstract: 本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法，包括：构建动作评论模型，动作评论模型包括行动网络模块和评论网络模块；动作评论模型根据状态向量得到决策过程向量组，状态向量为从预设环境中得到的；根据决策过程向量组，在最大化熵原则下更新行动网络模块和所述评论网络模块，输出最优策略结果。本发明在最大化熵原则下，避免对整体空间进行计算，大大减少了学习的复杂性。

2.

发明授权
基于最大熵强化学习算法的模型训练方法及规划制导方法有权

公开(公告)号：CN118607613B

公开(公告)日：2024-12-24

申请号：CN202411075546.3

申请日：2024-08-07

Applicant: 南开大学

Inventor： 张晓宇 , 王晨飞 , 刘烨坤 , 董飞

IPC: G06N3/092 , G06N3/045 , G06N3/084 , G05D1/683

Abstract: 本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法，包括：构建动作评论模型，动作评论模型包括行动网络模块和评论网络模块；动作评论模型根据状态向量得到决策过程向量组，状态向量为从预设环境中得到的；根据决策过程向量组，在最大化熵原则下更新行动网络模块和所述评论网络模块，输出最优策略结果。本发明在最大化熵原则下，避免对整体空间进行计算，大大减少了学习的复杂性。

Patent Agency Ranking