-
公开(公告)号:CN114115309B
公开(公告)日:2024-09-06
申请号:CN202111400188.5
申请日:2021-11-24
Applicant: 西北工业大学
IPC: G05D1/495 , G05D1/46 , G05D101/15 , G05D109/20
Abstract: 本发明公开了一种基于ARS强化学习算法的行星飞行避障制导方法,首先设置飞行器动作空间、飞行器状态空间、奖励函数,然后设置ARS算法超参数,采用神经网络实现飞行器避障功能;运行ARS算法,与环境交互获取经验并不断更新神经网络,学习避障制导律;训练多个回合后算法收敛即获得避障制导律;当障碍物距离飞行器的距离在飞行器探测范围内时,将飞行器探测范围的边界圆作为探测边界,探测边界外为安全区,探测边界内为预警区;当飞行器在预警区内时需要启动避障制导律避障,否则正常飞行。本发明方法是一种相对简化的无模型强化学习算法,采用适宜解决连续行为问题的线性策略,具有较高的效率和鲁棒性。
-
公开(公告)号:CN117787096A
公开(公告)日:2024-03-29
申请号:CN202311823051.X
申请日:2023-12-27
Applicant: 西北工业大学
IPC: G06F30/27 , G06N3/0475 , G06N3/092 , G06N3/094 , G06F111/04 , G06F111/08 , G06F119/14
Abstract: 本发明涉及一种基于生成对抗模仿学习的含落角约束制导方法,建立了一个对抗性学习框架,通过利用专家数据训练判别器来生成奖励模型,从而解决奖励函数设计问题;利用奖励值引导智能体的探索与学习过程,避免智能体探索不良的决策空间,进而提高学习效率;利用生成器与环境交互产生交互数据,从而驱动策略的提升和更新;采用交替训练生成器和判别器的方式,使得判别器和生成器处于动态博弈,生成多样性较高的样本,增加数据的覆盖范围,提高智能体在新场景下的适应能力。该方法不依赖于对剩余飞行时间的精确测量,因此具有更好的泛化性能。
-
公开(公告)号:CN117828980A
公开(公告)日:2024-04-05
申请号:CN202311709808.2
申请日:2023-12-13
Applicant: 西北工业大学
IPC: G06F30/27 , G06N3/092 , G06F119/02
Abstract: 本发明涉及一种基于专家数据与强化学习结合的着陆制导方法,通过使用专家数据作为引导策略,为强化学习提供了一个启动状态的示范,简化了探索问题,提升了探索效率与算法收敛速度。随着强化学习策略的改进,引导策略的效果减弱,最终收敛为一个纯粹的强化学习策略。本发明利用指导策略显著加快强化学习训练的早期阶段,可以解决含有复杂约束的强化学习着陆制导问题。
-
公开(公告)号:CN117826585A
公开(公告)日:2024-04-05
申请号:CN202311709806.3
申请日:2023-12-13
Applicant: 西北工业大学
IPC: G05B13/04
Abstract: 本发明涉及一种基于强化学习的软着陆自适应比例制导方法,通过将强化学习和比例导引方法结合,应用于软着陆制导问题中。当模型不确定性和干扰超过一定的范围时,传统比例导引可能因为鲁棒性较差而无法满足制导系统的设计指标要求。本发明将软着陆小行星的控制分解为终端角度约束控制与速度控制,通过使用强化学习产生自适应比例系数和速度系数,产生过载指令并对速度进行规划,实现对目标的有效安全软着陆。本发明利用比例导引增强制导精度,同时利用强化学习提升了在未知环境中自主决策的能力,可以解决未知环境中着陆制导问题。不仅可以满足着陆速度要求,还可以满足终端落角约束条件,提升了算法稳定性。
-
公开(公告)号:CN119567245A
公开(公告)日:2025-03-07
申请号:CN202411535420.X
申请日:2024-10-31
Applicant: 西北工业大学
IPC: B25J9/16
Abstract: 本发明涉及空间机械臂控制技术领域,具体涉及一种面向空间机械臂的抓取与放置任务的基于同伦的元强化训练方法,包括:获取元任务行为空间、元任务状态空间以及元任务奖励函数;构建元强化训练的同伦任务序列;获取每个同伦任务下更新后的SAC神经网络参数,获取更新后的目标元神经网络参数及更新后的Meta‑SAC算法的目标神经网络模型;将机械臂的当前状态更新为下一状态。本发明相比于传统的强化学习以及迁移学习方法,实现了更高的成功率以及更快的收敛速度,在空间机械臂的控制领域具有更好的表现。
-
公开(公告)号:CN118210229A
公开(公告)日:2024-06-18
申请号:CN202410283279.2
申请日:2024-03-13
Applicant: 西北工业大学
IPC: G05B13/04
Abstract: 本发明涉及一种基于强化学习的含时间和角度约束的协同制导方法,该发明通过将强化学习和比例导引方法结合,应用于协同制导问题中。当前基于强化学习的飞行器协同制导方法仍然存在一些挑战和不足之处。飞行器协同制导本身是一个复杂的非线性问题,而纯粹的强化学习方法在应对这类问题时可能面临收敛缓慢、数据需求量大以及易陷入局部最优解的问题。飞行器协同制导过程中的时变性和对角度的精确要求更增加了问题的难度,本发明结合比例导引增强制导精度,同时利用强化学习提升了在未知环境中自主决策的能力,可以解决未知环境中着陆制导问题。不仅可以满足满足终端落角约束,还可以满足时间协同,提升了算法稳定性。
-
公开(公告)号:CN114115309A
公开(公告)日:2022-03-01
申请号:CN202111400188.5
申请日:2021-11-24
Applicant: 西北工业大学
Abstract: 本发明公开了一种基于ARS强化学习算法的行星飞行避障制导方法,首先设置飞行器动作空间、飞行器状态空间、奖励函数,然后设置ARS算法超参数,采用神经网络实现飞行器避障功能;运行ARS算法,与环境交互获取经验并不断更新神经网络,学习避障制导律;训练多个回合后算法收敛即获得避障制导律;当障碍物距离飞行器的距离在飞行器探测范围内时,将飞行器探测范围的边界圆作为探测边界,探测边界外为安全区,探测边界内为预警区;当飞行器在预警区内时需要启动避障制导律避障,否则正常飞行。本发明方法是一种相对简化的无模型强化学习算法,采用适宜解决连续行为问题的线性策略,具有较高的效率和鲁棒性。
-
公开(公告)号:CN112177802A
公开(公告)日:2021-01-05
申请号:CN202010978301.7
申请日:2020-09-17
Applicant: 西北工业大学
Abstract: 本发明公开了一种适用于凝胶燃料的火箭发动机预热自击喷注器,包括:喷注器本体,其为回转体结构,且沿中轴线处贯通开设有一上下敞口的中心腔,在回转体内有两个独立的同轴回转体腔室,上部的腔室为燃料腔,下部腔室为氧气腔,氧气腔与外部气源管路连通;在中心腔内轴向设置有点火器。喷注器底座,一体连接在氧气腔的下部,在喷注器底座上、且绕其一周间隔开设有多个由中心向外延伸的燃料预热通道;在各燃料预热通道和燃料腔间均连通有一竖直向的输油管,用于将燃料输送至燃料腔。该一种适用于凝胶燃料的火箭发动机预热自击喷注器,对凝胶燃料采用先预热后撞击,再剪切的雾化模式,有效改善凝胶燃料的雾化性能。
-
-
-
-
-
-
-