-
公开(公告)号:CN108826354B
公开(公告)日:2019-07-12
申请号:CN201810449729.5
申请日:2018-05-11
Applicant: 上海交通大学
IPC: F23N5/00
Abstract: 本发明涉及一种基于强化学习的火电燃烧优化方法,包括以下步骤:1)获取火力发电燃烧过程中的相关变量,定义Mt={it,st,pt}为t时刻的数据信息;2)构建预测网络,根据最近两次历史数据信息Mt‑1、Mt以及下一时刻的可控输入it+1预测下一时刻的中间状态量st+1和性能指标pt+1;3)定义St={Mt‑2,Mt‑1,it}为马尔科夫决策问题在t时刻的状态,以输入对应的增量矢量作为马尔科夫决策问题的动作At,并且以前后状态的线性加权综合指标KPI的增量ΔCIt作为马尔科夫决策问题的奖励Rt,并定义状态跳转;4)采用深度决定性策略梯度对马尔科夫决策问题进行求解。与现有技术相比,本发明具有泛化能力强、普遍适用性、快速响应等优点。
-
公开(公告)号:CN108826354A
公开(公告)日:2018-11-16
申请号:CN201810449729.5
申请日:2018-05-11
Applicant: 上海交通大学
IPC: F23N5/00
CPC classification number: F23N5/00 , F23N2023/04 , F23N2023/10 , F23N2023/48 , F23N2900/05006
Abstract: 本发明涉及一种基于强化学习的火电燃烧优化方法,包括以下步骤:1)获取火力发电燃烧过程中的相关变量,定义Mt={it,st,pt}为t时刻的数据信息;2)构建预测网络,根据最近两次历史数据信息Mt-1、Mt以及下一时刻的可控输入it+1预测下一时刻的中间状态量st+1和性能指标pt+1;3)定义St={Mt-2,Mt-1,it}为马尔科夫决策问题在t时刻的状态,以输入对应的增量矢量作为马尔科夫决策问题的动作At,并且以前后状态的线性加权综合指标KPI的增量ΔCIt作为马尔科夫决策问题的奖励Rt,并定义状态跳转;4)采用深度决定性策略梯度对马尔科夫决策问题进行求解。与现有技术相比,本发明具有泛化能力强、普遍适用性、快速响应等优点。
-