-
公开(公告)号:CN118607613A
公开(公告)日:2024-09-06
申请号:CN202411075546.3
申请日:2024-08-07
Applicant: 南开大学
Abstract: 本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法,包括:构建动作评论模型,动作评论模型包括行动网络模块和评论网络模块;动作评论模型根据状态向量得到决策过程向量组,状态向量为从预设环境中得到的;根据决策过程向量组,在最大化熵原则下更新行动网络模块和所述评论网络模块,输出最优策略结果。本发明在最大化熵原则下,避免对整体空间进行计算,大大减少了学习的复杂性。
-
公开(公告)号:CN118607613B
公开(公告)日:2024-12-24
申请号:CN202411075546.3
申请日:2024-08-07
Applicant: 南开大学
Abstract: 本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法,包括:构建动作评论模型,动作评论模型包括行动网络模块和评论网络模块;动作评论模型根据状态向量得到决策过程向量组,状态向量为从预设环境中得到的;根据决策过程向量组,在最大化熵原则下更新行动网络模块和所述评论网络模块,输出最优策略结果。本发明在最大化熵原则下,避免对整体空间进行计算,大大减少了学习的复杂性。
-