Patent search ap:("北京理工大学") AND inv:"侯佳成" Page 1

1.

发明授权
一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法有权

公开(公告)号：CN114692310B

公开(公告)日：2024-07-09

申请号：CN202210395757.X

申请日：2022-04-14

Applicant: 北京理工大学

Inventor： 张美慧 , 史继筠 , 何祎君 , 侯佳成

IPC: G06F30/15 , G06F30/27 , G06N3/0499 , G06N3/084 , G06N3/092 , G06N3/0985 , G06F119/14 , G06N3/048

Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法，属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型，可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化，将Q值函数分解为价值函数和优势函数，考虑状态单独的影响，使网络更易收敛。相比传统启发式算法，深度强化学习搜索更细致，迭代次数更多，优化结果更优，深度网络可以积累智能体在可行解空间里的搜索经验，对于结构相同的问题大大提升了其拓展性和泛化能力，对于新的数据可以在已经训练过的基础上在进行训练，减少再次开发的成本和时间，通过历史经验减少训练消耗的时间。

2.

发明公开
一种基于DPPO的虚实融合栅格舵模型参数优化方法有权

公开(公告)号：CN114818124A

公开(公告)日：2022-07-29

申请号：CN202210394120.9

申请日：2022-04-14

Applicant: 北京理工大学

Inventor： 张美慧 , 史继筠 , 侯佳成 , 何祎君

IPC: G06F30/15 , G06F30/27 , G06N3/04 , G06N3/08

Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法，属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型，可以快速地生成数据、完成预测，使用Adams物理仿真模型预测20000组数据需要耗时越20小时，使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化，在计算梯度时通过更新前后地参数对比，限制更新步长，解决了基于行为地强化学习的步长敏感问题，使得训练更易收敛。同时，使用分布式的方式，用多组线程与环境交互，产生训练数据，在提升数据收集速度的同时，降低了网络间的相关性，使得训练更容易收敛，更易实现对栅格舵系统的参数优化。

3.

发明授权
一种基于DPPO的虚实融合栅格舵模型参数优化方法有权

公开(公告)号：CN114818124B

公开(公告)日：2024-08-23

申请号：CN202210394120.9

申请日：2022-04-14

Applicant: 北京理工大学

Inventor： 张美慧 , 史继筠 , 侯佳成 , 何祎君

IPC: G06F30/15 , G06F30/27 , G06N3/0499 , G06N3/084 , G06N3/048

Abstract: 本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法，属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型，可以快速地生成数据、完成预测，使用Adams物理仿真模型预测20000组数据需要耗时越20小时，使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化，在计算梯度时通过更新前后地参数对比，限制更新步长，解决了基于行为地强化学习的步长敏感问题，使得训练更易收敛。同时，使用分布式的方式，用多组线程与环境交互，产生训练数据，在提升数据收集速度的同时，降低了网络间的相关性，使得训练更容易收敛，更易实现对栅格舵系统的参数优化。

4.

发明公开
一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法有权

公开(公告)号：CN114692310A

公开(公告)日：2022-07-01

申请号：CN202210395757.X

申请日：2022-04-14

Applicant: 北京理工大学

Inventor： 张美慧 , 史继筠 , 何祎君 , 侯佳成

IPC: G06F30/15 , G06F30/27 , G06N3/04 , G06N3/08 , G06F119/14

Abstract: 本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法，属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型，可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化，将Q值函数分解为价值函数和优势函数，考虑状态单独的影响，使网络更易收敛。相比传统启发式算法，深度强化学习搜索更细致，迭代次数更多，优化结果更优，深度网络可以积累智能体在可行解空间里的搜索经验，对于结构相同的问题大大提升了其拓展性和泛化能力，对于新的数据可以在已经训练过的基础上在进行训练，减少再次开发的成本和时间，通过历史经验减少训练消耗的时间。

Patent Agency Ranking