-
公开(公告)号:CN118372851B
公开(公告)日:2024-11-29
申请号:CN202410447443.9
申请日:2024-04-15
Applicant: 海南大学
Abstract: 本发明公开一种基于深度强化学习的车辆最优控制方法,步骤1,建立策略网络和相互独立的价值网络;步骤2,控制车辆运行,收集样本;步骤3,将数据st、at输入价值网络获取两个价值评分并取其中较小值来计算预测得分;将状态st+1输入到策略网络得到动作at+1,将数据st+1、at+1分别输入两个价值网络中两个价值评分并根据价值评分和预测得分来确定TD误差,对价值网络进行更新;步骤4,每更新两次价值网络后对策略网络进行更新;步骤5,重复步骤2至4进行网络参数调优,直至策略网络达到预期的效果,输出最终更新得到的策略网络。本发明能够优化控制车辆的过程中确保稳定性。
-
公开(公告)号:CN118372851A
公开(公告)日:2024-07-23
申请号:CN202410447443.9
申请日:2024-04-15
Applicant: 海南大学
Abstract: 本发明公开一种基于深度强化学习的车辆最优控制方法,步骤1,建立策略网络和相互独立的价值网络;步骤2,控制车辆运行,收集样本;步骤3,将数据st、at输入价值网络获取两个价值评分并取其中较小值来计算预测得分;将状态st+1输入到策略网络得到动作at+1,将数据st+1、at+1分别输入两个价值网络中两个价值评分并根据价值评分和预测得分来确定TD误差,对价值网络进行更新;步骤4,每更新两次价值网络后对策略网络进行更新;步骤5,重复步骤2至4进行网络参数调优,直至策略网络达到预期的效果,输出最终更新得到的策略网络。本发明能够优化控制车辆的过程中确保稳定性。
-