一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法

    公开(公告)号:CN114692310B

    公开(公告)日:2024-07-09

    申请号:CN202210395757.X

    申请日:2022-04-14

    Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型,可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化,将Q值函数分解为价值函数和优势函数,考虑状态单独的影响,使网络更易收敛。相比传统启发式算法,深度强化学习搜索更细致,迭代次数更多,优化结果更优,深度网络可以积累智能体在可行解空间里的搜索经验,对于结构相同的问题大大提升了其拓展性和泛化能力,对于新的数据可以在已经训练过的基础上在进行训练,减少再次开发的成本和时间,通过历史经验减少训练消耗的时间。

    一种基于DPPO的虚实融合栅格舵模型参数优化方法

    公开(公告)号:CN114818124A

    公开(公告)日:2022-07-29

    申请号:CN202210394120.9

    申请日:2022-04-14

    Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型,可以快速地生成数据、完成预测,使用Adams物理仿真模型预测20000组数据需要耗时越20小时,使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化,在计算梯度时通过更新前后地参数对比,限制更新步长,解决了基于行为地强化学习的步长敏感问题,使得训练更易收敛。同时,使用分布式的方式,用多组线程与环境交互,产生训练数据,在提升数据收集速度的同时,降低了网络间的相关性,使得训练更容易收敛,更易实现对栅格舵系统的参数优化。

    一种基于DPPO的虚实融合栅格舵模型参数优化方法

    公开(公告)号:CN114818124B

    公开(公告)日:2024-08-23

    申请号:CN202210394120.9

    申请日:2022-04-14

    Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型,可以快速地生成数据、完成预测,使用Adams物理仿真模型预测20000组数据需要耗时越20小时,使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化,在计算梯度时通过更新前后地参数对比,限制更新步长,解决了基于行为地强化学习的步长敏感问题,使得训练更易收敛。同时,使用分布式的方式,用多组线程与环境交互,产生训练数据,在提升数据收集速度的同时,降低了网络间的相关性,使得训练更容易收敛,更易实现对栅格舵系统的参数优化。

    一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法

    公开(公告)号:CN114692310A

    公开(公告)日:2022-07-01

    申请号:CN202210395757.X

    申请日:2022-04-14

    Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型,可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化,将Q值函数分解为价值函数和优势函数,考虑状态单独的影响,使网络更易收敛。相比传统启发式算法,深度强化学习搜索更细致,迭代次数更多,优化结果更优,深度网络可以积累智能体在可行解空间里的搜索经验,对于结构相同的问题大大提升了其拓展性和泛化能力,对于新的数据可以在已经训练过的基础上在进行训练,减少再次开发的成本和时间,通过历史经验减少训练消耗的时间。

Patent Agency Ranking