一种基于概率的策略迁移方法
    22.
    发明公开

    公开(公告)号:CN114781645A

    公开(公告)日:2022-07-22

    申请号:CN202210255129.1

    申请日:2022-03-15

    Abstract: 一种基于概率的策略迁移方法,属于人工智能技术领域。机器人操作等连续控制任务的环境受高动态、不确定等影响,实际上很难利用虚拟环境逼近真实环境。本发明方法包括:通过Monte Carlo dropout构建概率的Q函数估计器,并与策略梯度优化进行结合,使得算法具备辨识环境不确定性的能力。具体通过虚拟环境训练数据采集、不确定性分解与推断、策略梯度优化、真实环境运行性能评估,实现了环境不确定性的分解与度量,改善了策略学习效率与策略运行性能。

    一种空间精细操作的多任务强化学习基准平台设计方法

    公开(公告)号:CN114692485A

    公开(公告)日:2022-07-01

    申请号:CN202210233764.X

    申请日:2022-03-10

    Abstract: 本发明公开了一种空间精细操作的多任务强化学习基准平台设计方法,属于空间技术领域。本发明方法包括:搭建多任务空间操作的训练环境,构建多模态观测信息的提取基准,建立多任务空间操作学习的评价基准,将干扰变量总数、干扰变量摄动方差、接触动力学摄动方差等引入策略优化,可更好应对空间环境的多源干扰与非结构化特点。针对真实环境数据采样的高成本、低安全问题,本发明实现了机器人设置与真实环境相近的虚拟环境,利用虚拟环境数据采样代替真实环境数据采样,有利于提升算法的可复用性。

    基于深度强化学习的端到端在轨自主加注控制系统及方法

    公开(公告)号:CN111844034B

    公开(公告)日:2022-03-04

    申请号:CN202010693535.7

    申请日:2020-07-17

    Abstract: 基于深度强化学习的端到端在轨自主加注控制系统及方法,包括基于深度强化学习的端到端在轨加注控制系统和神经网络结构;控制系统包括:基于深度神经网络的特征提取系统、基于深度强化学习的自学习轨迹规划系统和机械臂关节控制系统;神经网络结构包括:基于深度神经网络的特征提取系统网络和基于深度强化学习的自学习轨迹规划系统网络;特征提取系统网络主要由深度卷积神经网络组成;轨迹规划系统网络由策略网络和评价网络构成;整个系统在虚拟环境下利用深度强化学习的基本方法进行训练,且可基于特征迁移至真实的物理环境下。本发明不但解决了困扰当前空间操作的环境的非结构化、遥操作的大时延等难题,并且具有实际的工程应用价值。

Patent Agency Ranking