-
公开(公告)号:CN114692310B
公开(公告)日:2024-07-09
申请号:CN202210395757.X
申请日:2022-04-14
Applicant: 北京理工大学
IPC: G06F30/15 , G06F30/27 , G06N3/0499 , G06N3/084 , G06N3/092 , G06N3/0985 , G06F119/14 , G06N3/048
Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型,可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化,将Q值函数分解为价值函数和优势函数,考虑状态单独的影响,使网络更易收敛。相比传统启发式算法,深度强化学习搜索更细致,迭代次数更多,优化结果更优,深度网络可以积累智能体在可行解空间里的搜索经验,对于结构相同的问题大大提升了其拓展性和泛化能力,对于新的数据可以在已经训练过的基础上在进行训练,减少再次开发的成本和时间,通过历史经验减少训练消耗的时间。
-
公开(公告)号:CN114818124A
公开(公告)日:2022-07-29
申请号:CN202210394120.9
申请日:2022-04-14
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型,可以快速地生成数据、完成预测,使用Adams物理仿真模型预测20000组数据需要耗时越20小时,使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化,在计算梯度时通过更新前后地参数对比,限制更新步长,解决了基于行为地强化学习的步长敏感问题,使得训练更易收敛。同时,使用分布式的方式,用多组线程与环境交互,产生训练数据,在提升数据收集速度的同时,降低了网络间的相关性,使得训练更容易收敛,更易实现对栅格舵系统的参数优化。
-
公开(公告)号:CN114818124B
公开(公告)日:2024-08-23
申请号:CN202210394120.9
申请日:2022-04-14
Applicant: 北京理工大学
IPC: G06F30/15 , G06F30/27 , G06N3/0499 , G06N3/084 , G06N3/048
Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型,可以快速地生成数据、完成预测,使用Adams物理仿真模型预测20000组数据需要耗时越20小时,使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化,在计算梯度时通过更新前后地参数对比,限制更新步长,解决了基于行为地强化学习的步长敏感问题,使得训练更易收敛。同时,使用分布式的方式,用多组线程与环境交互,产生训练数据,在提升数据收集速度的同时,降低了网络间的相关性,使得训练更容易收敛,更易实现对栅格舵系统的参数优化。
-
公开(公告)号:CN114692310A
公开(公告)日:2022-07-01
申请号:CN202210395757.X
申请日:2022-04-14
Applicant: 北京理工大学
IPC: G06F30/15 , G06F30/27 , G06N3/04 , G06N3/08 , G06F119/14
Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型,可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化,将Q值函数分解为价值函数和优势函数,考虑状态单独的影响,使网络更易收敛。相比传统启发式算法,深度强化学习搜索更细致,迭代次数更多,优化结果更优,深度网络可以积累智能体在可行解空间里的搜索经验,对于结构相同的问题大大提升了其拓展性和泛化能力,对于新的数据可以在已经训练过的基础上在进行训练,减少再次开发的成本和时间,通过历史经验减少训练消耗的时间。
-
-
-