-
公开(公告)号:CN118709559A
公开(公告)日:2024-09-27
申请号:CN202410852522.8
申请日:2024-06-28
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于VI策略的off‑policy输出反馈数据驱动Q学习的控制方法、系统、设备及存储介质,所述方法包括:基于单相电压源UPS逆变器的离散时间系统模型,构建逆变器模型的状态空间表达式;基于逆变器模型的状态空间表达式,构建代数黎卡提方程;基于代数黎卡提方程,构建基于状态反馈的VI的off‑policy Q函数;根据基于off‑policy的状态反馈数据驱动Q学习VI算法,采用最小二乘法对off‑policy Q函数求解;通过状态重构引理,将基于状态反馈的VI的off‑policy Q函数推导出基于输出反馈的VI的off‑policy Q函数,以使基于输出反馈的VI的off‑policy Q函数的求解不依赖于系统状态变量的测量。本发明不仅能够准确地控制电力转换和切换操作,以提高系统的能源利用效率,还能够在面对不可测量的状态信息时保持稳定运行,从而提高系统的可靠性和鲁棒性。
-
公开(公告)号:CN118025223B
公开(公告)日:2024-10-22
申请号:CN202410055698.0
申请日:2024-01-15
Applicant: 华南理工大学
Abstract: 本发明涉及控制技术领域,为基于长短时记忆网络的无人驾驶汽车学习型预测控制方法,包括:结合帕采卡轮胎模型建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型;基于长短时记忆网络对非线性车辆动力学模型进行训练,得到优化的非线性车辆动力学模型;使用模型预测控制MPC方法作为优化的车辆动力学模型控制策略,利用模型预测控制MPC方法的最优化问题进行滚动优化;使用梯度下降法求解在线最优控制的最优化问题输出最优控制序列,将最优控制序列中的第一个元素作为下一时刻的自动驾驶汽车的实际控制输入量。本发明通过准确的模型建立和优化控制策略可以减少事故的风险,并使车辆能够适应不同路况和驾驶需求,可以提升自动驾驶汽车的安全性能。
-
公开(公告)号:CN118025223A
公开(公告)日:2024-05-14
申请号:CN202410055698.0
申请日:2024-01-15
Applicant: 华南理工大学
Abstract: 本发明涉及控制技术领域,为基于长短时记忆网络的无人驾驶汽车学习型预测控制方法,包括:结合帕采卡轮胎模型建立基于阿克曼驾驶汽车模型的非线性车辆动力学模型;基于长短时记忆网络对非线性车辆动力学模型进行训练,得到优化的非线性车辆动力学模型;使用模型预测控制MPC方法作为优化的车辆动力学模型控制策略,利用模型预测控制MPC方法的最优化问题进行滚动优化;使用梯度下降法求解在线最优控制的最优化问题输出最优控制序列,将最优控制序列中的第一个元素作为下一时刻的自动驾驶汽车的实际控制输入量。本发明通过准确的模型建立和优化控制策略可以减少事故的风险,并使车辆能够适应不同路况和驾驶需求,可以提升自动驾驶汽车的安全性能。
-
-