-
公开(公告)号:CN114819179A
公开(公告)日:2022-07-29
申请号:CN202210233709.0
申请日:2022-03-10
Applicant: 北京控制工程研究所
Abstract: 本发明公开了一种空间精细操作的离线强化学习方法及系统,其中,该方法包括如下步骤:步骤1:采集离线多任务交互数据,并对离线多任务交互数据进行分割;步骤2:基于分割后的离线多任务交互数据,进行离线多任务演员‑评论家优化得到全局策略网络;步骤3:将全局策略网络作为控制器,移植到真实物理环境。本发明实现空间精细操作的交互数据一次离线采集、多种任务多次重复利用,提升样本采集与样本利用效率。
-
公开(公告)号:CN111814823A
公开(公告)日:2020-10-23
申请号:CN202010457152.X
申请日:2020-05-26
Applicant: 北京控制工程研究所
Abstract: 本发明涉及一种基于场景模板生成的迁移学习方法,包括设计场景模板、构建场景模板、训练模板生成网络及基于场景模板迁移策略网络。通过场景模板的概念建立了不同场景的统一模板,构建了不同场景之间的共同特征,通过共同特征建立了不同场景之间的联系,从而实现通过强化学习得到的策略网络在差异较大的环境之间的迁移。
-
公开(公告)号:CN108278309A
公开(公告)日:2018-07-13
申请号:CN201810057862.6
申请日:2018-01-19
Applicant: 北京控制工程研究所
Abstract: 一种主被动一体化的四足会聚式隔振器,包括上连接板(1)、斜置微振动控制单元(2)、第三开槽碟形弹簧(4)、下连接板(5)、开槽圆柱弹簧(6);开槽圆柱弹簧(6)一端连接第三开槽碟形弹簧(4),另一端固定在下连接板(5)中部;第三开槽碟形弹簧(4)固定在上连接板(1)中部;各斜置微振动控制单元(2)绕开槽圆柱弹簧(6)的中心轴沿上连接板(1)周向均匀分布,倾斜安装,一端与上连接板(1)相连,另一端与下连接板(5)相连。本发明采用主被动一体化结构,能实现宽频段的微振动控制,提高了隔振器的隔振效率和对复杂环境及变化对象的适应性。
-
公开(公告)号:CN114692485B
公开(公告)日:2025-01-03
申请号:CN202210233764.X
申请日:2022-03-10
Applicant: 北京控制工程研究所
IPC: G06F30/27
Abstract: 本发明公开了一种空间精细操作的多任务强化学习基准平台设计方法,属于空间技术领域。本发明方法包括:搭建多任务空间操作的训练环境,构建多模态观测信息的提取基准,建立多任务空间操作学习的评价基准,将干扰变量总数、干扰变量摄动方差、接触动力学摄动方差等引入策略优化,可更好应对空间环境的多源干扰与非结构化特点。针对真实环境数据采样的高成本、低安全问题,本发明实现了机器人设置与真实环境相近的虚拟环境,利用虚拟环境数据采样代替真实环境数据采样,有利于提升算法的可复用性。
-
公开(公告)号:CN117493884A
公开(公告)日:2024-02-02
申请号:CN202311533174.X
申请日:2023-11-16
Applicant: 北京控制工程研究所
IPC: G06F18/214 , G06F18/2415 , G06N3/092
Abstract: 本发明涉及人工智能技术领域,特别涉及一种面向复杂场景的强化学习决策方法及装置。获取目标环境的当前状态和与该当前状态对应的事件状态集,所述事件状态集是预先训练好的事件生成网络模型基于该当前状态确定的;所述事件生成网络模型是基于包含多个样本对的样本集训练得到的,每个所述样本对均包括目标环境的环境状态和与该环境状态相对应的事件集中各事件发生的概率;将所述当前状态和所述事件状态集输入至预先训练好的强化学习网络模型,输出与该当前状态相对应的决策,所述强化学习网络模型是以所述目标环境的环境状态和所述事件生成网络模型输出的事件状态集为输入训练得到的。本发明方法,可以对复杂场景做出准确的决策。
-
公开(公告)号:CN117047763A
公开(公告)日:2023-11-14
申请号:CN202311086605.2
申请日:2023-08-28
Applicant: 北京控制工程研究所
IPC: B25J9/16
Abstract: 本发明涉及人工智能技术领域,特别涉及一种基于信息交互的空间机器人的协同操作方法及装置。方法包括:基于目标任务确定多个空间机器人,每个空间机器人分别对应一个子任务和一个智能体网络,每个智能体网络均包括策略网络、评价网络、通讯网络和输出网络;构建每个智能体网络之间的联合操作模型,在联合操作模型中,每个智能体网络分别通过其通讯网络和输出网络与其它智能体网络进行信息交互;对联合操作模型进行训练,得到训练好的联合操作模型;将每个空间机器人基于其子任务获取的观测数据分别输入训练好的联合操作模型,得到每个空间机器人相应的操作策略。本发明,通过各机器人之间的协同工作,可以更好地完成目标任务。
-
公开(公告)号:CN111844034A
公开(公告)日:2020-10-30
申请号:CN202010693535.7
申请日:2020-07-17
Applicant: 北京控制工程研究所
IPC: B25J9/16
Abstract: 基于深度强化学习的端到端在轨自主加注控制系统及方法,包括基于深度强化学习的端到端在轨加注控制系统和神经网络结构;控制系统包括:基于深度神经网络的特征提取系统、基于深度强化学习的自学习轨迹规划系统和机械臂关节控制系统;神经网络结构包括:基于深度神经网络的特征提取系统网络和基于深度强化学习的自学习轨迹规划系统网络;特征提取系统网络主要由深度卷积神经网络组成;轨迹规划系统网络由策略网络和评价网络构成;整个系统在虚拟环境下利用深度强化学习的基本方法进行训练,且可基于特征迁移至真实的物理环境下。本发明不但解决了困扰当前空间操作的环境的非结构化、遥操作的大时延等难题,并且具有实际的工程应用价值。
-
公开(公告)号:CN111814823B
公开(公告)日:2023-08-15
申请号:CN202010457152.X
申请日:2020-05-26
Applicant: 北京控制工程研究所
IPC: G06V10/774 , G06V10/82 , G06N3/0455 , G06N20/00
Abstract: 本发明涉及一种基于场景模板生成的迁移学习方法,包括设计场景模板、构建场景模板、训练模板生成网络及基于场景模板迁移策略网络。通过场景模板的概念建立了不同场景的统一模板,构建了不同场景之间的共同特征,通过共同特征建立了不同场景之间的联系,从而实现通过强化学习得到的策略网络在差异较大的环境之间的迁移。
-
公开(公告)号:CN116466738A
公开(公告)日:2023-07-21
申请号:CN202310186979.5
申请日:2023-02-10
Applicant: 北京控制工程研究所
IPC: G05D1/10
Abstract: 一种用于飞行控制伴飞系统稳定运行的分布式运算与决策系统,包括:卫星控制驱动器、三台分布式开展并行飞控解算的仿真计算机;卫星控制驱动器采集敏感器的输出,完成控制律的解算,输出航天器执行机构的驱动信号;驱动信号经网络同步发送给各仿真计算机,各仿真计算机采用相同的软件及硬件配置,程序独立运行,独立接收卫星控制驱动器发送的执行机构驱动信号,独立完成飞行器的姿态和轨道运动仿真,解算各敏感器的输出;各仿真计算机间交互信息并各自完成状态的独立决策后,最终仅一台仿真计算机输出敏感器模拟信号,卫星控制驱动器采集该模拟信号后形成系统闭环回路。本发明采用分布式网络并行计算及自主决策技术解决系统高可靠稳定运行问题。
-
公开(公告)号:CN115294464A
公开(公告)日:2022-11-04
申请号:CN202210759365.7
申请日:2022-06-29
Applicant: 北京控制工程研究所
IPC: G06V20/13 , G06V10/82 , G06V10/774 , G06V10/764 , G06N3/04
Abstract: 一种基于时序关系的卫星背板部件识别方法,属于空间技术领域。本发明包括对采集到的图像做序列化处理、序列图像的图像特征模型和时序特征模型的构建、图像特征模型和时序特征模型的训练,最终实现基于时序关系的卫星背板部件识别方法。相比于一般的基于卷积神经网络的卫星背板部件识别方法,本发明的方法提高了提取出的特征对变化环境以及变化阈值的鲁棒性,有助于提高在运动过程中,模型对手眼相机采集到的卫星背板图像的识别率,具有实际工程意义。
-
-
-
-
-
-
-
-
-