一种神经网络控制律高效自主学习方法

    公开(公告)号:CN120046653A

    公开(公告)日:2025-05-27

    申请号:CN202411917060.X

    申请日:2024-12-24

    Abstract: 本发明公开了一种神经网络控制律高效自主学习方法。针对在运用深度强化学习算法实现复杂飞行器控制律自学习的过程中,超参数设定高度依赖于人工经验进而造成设计难度大,且不一定对于任务最优的问题,本发明引入图像识别领域网络架构搜索思想,提出基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架构设计问题转化为图拓扑生成问题的基础上,结合LSTM循环神经网络的图拓扑生成算法、基于权重共享的深度强化学习参数轻量化训练与评估机制,以及基于策略梯度的图拓扑生成器参数学习算法,实现了深度强化学习训练算法中神经网络架构超参数的自动优化,进而完成了控制律的自学习。

    一种飞行控制算法一体化训练平台

    公开(公告)号:CN114167748B

    公开(公告)日:2024-04-09

    申请号:CN202111247331.1

    申请日:2021-10-26

    Abstract: 本发明公开了一种飞行控制算法一体化训练平台,属于机器学习技术领域,能够保证飞行控制算法训练,以及验证设计的通用性和易用性,进而提高了飞行控制算法一体化训练和验证设计的效率。平台包括:控制器、机器学习框架模块和可视化飞行仿真环境;其中:所述可视化飞行仿真环境包括动力学模型、视景仿真模型和调用接口;所述可视化飞行仿真环境通过所述调用接口与所述机器学习框架模块相连接;所述机器学习框架模块用于实现所述控制器和所述可视化飞行仿真环境之间的数据交互;所述视景仿真模型用于展示飞行控制算法的一体化训练过程中的飞行状态信息;所述动力学模型与所述视景仿真模型之间建立通讯连接。

    一种飞行姿态控制方法
    3.
    发明授权

    公开(公告)号:CN114200950B

    公开(公告)日:2023-06-02

    申请号:CN202111248696.6

    申请日:2021-10-26

    Abstract: 本发明公开了飞行姿态控制方法,属于机器学习技术领域,方法包括:构建飞行姿态控制律的学习所需的探索环境;根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。

    一种基于DDPG强化学习火箭回收控制器实现与仿真的应用方法

    公开(公告)号:CN118550207A

    公开(公告)日:2024-08-27

    申请号:CN202311634804.2

    申请日:2023-12-01

    Abstract: 本申请实施例中提供了一种基于DDPG强化学习的火箭回收控制器实现与仿真的应用方法,涉及飞行器制导控制技术领域,该方法包括以下步骤:对火箭下落过程进行了简化动力学建模并进行reward设计,采用改进后输出均值和标准差的DDPG进行训练;对火箭下落轨迹采用强化学习的方式进行轨迹规划和制导;其中,该方法的主要内容包括:定义描述轨迹的状态量并根据终端约束设计相应的回报函数、采用DDPG进行连续行为的轨迹规划和制导、并引入Mindspore国产化框架进行仿真。本申请,通过网络结构的改进和奖励函数的设计取得了较好效果,并可以基于数学仿真实现火箭垂直返回软着陆。

    一种飞行姿态控制方法
    5.
    发明公开

    公开(公告)号:CN114200950A

    公开(公告)日:2022-03-18

    申请号:CN202111248696.6

    申请日:2021-10-26

    Abstract: 本发明公开了飞行姿态控制方法,属于机器学习技术领域,方法包括:构建飞行姿态控制律的学习所需的探索环境;根据所述探索环境输出的姿态角、姿态角速度,以及期望姿态角指令,构建所述飞行姿态控制律的学习所需的输入信号;将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元,获取所述舵机限幅单元的输出结果,并将所述输出结果输入至所述探索环境;构建奖励回报单元,所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律,并通过最大化总奖励优化所述飞行姿态控制律的学习;对所述飞行姿态控制律进行学习,获取最终的飞行姿态控制律,基于所述飞行姿态控制律对飞行姿态进行控制。

    一种飞行控制算法一体化训练平台

    公开(公告)号:CN114167748A

    公开(公告)日:2022-03-11

    申请号:CN202111247331.1

    申请日:2021-10-26

    Abstract: 本发明公开了一种飞行控制算法一体化训练平台,属于机器学习技术领域,能够保证飞行控制算法训练,以及验证设计的通用性和易用性,进而提高了飞行控制算法一体化训练和验证设计的效率。平台包括:控制器、机器学习框架模块和可视化飞行仿真环境;其中:所述可视化飞行仿真环境包括动力学模型、视景仿真模型和调用接口;所述可视化飞行仿真环境通过所述调用接口与所述机器学习框架模块相连接;所述机器学习框架模块用于实现所述控制器和所述可视化飞行仿真环境之间的数据交互;所述视景仿真模型用于展示飞行控制算法的一体化训练过程中的飞行状态信息;所述动力学模型与所述视景仿真模型之间建立通讯连接。

Patent Agency Ranking