一种基于协程粒度的强化学习系统环境采样引擎设计方法

    公开(公告)号:CN117421128A

    公开(公告)日:2024-01-19

    申请号:CN202311564152.X

    申请日:2023-11-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于协程粒度的强化学习系统环境采样引擎设计方法,所述环境采样引擎的架构包括以下组件:线程池、工作线程、环境协程和调度器协程;所述线程池包含了若干个工作线程,用于为环境采样引擎提供并行计算资源;所述工作线程包含了若干个协程,用于执行多环境下的环境采样代码;所述环境协程承载了强化学习任务的环境对象,用于执行单个环境的具体逻辑代码;所述调度器协程负责环境协程的调度工作,用于切换工作线程中当前执行的环境协程。本发明方法消除每个核心的空转时间,并保证上下文切换仅会在一个环境执行步骤中只会发生一次,从而提高环境采样过程的吞吐量。

    基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

    公开(公告)号:CN113467515B

    公开(公告)日:2023-03-10

    申请号:CN202110828301.3

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。

    基于强化学习的无人机传感器故障时容错控制方法

    公开(公告)号:CN113467248A

    公开(公告)日:2021-10-01

    申请号:CN202110828311.7

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于强化学习的无人机传感器故障时容错控制方法,测定无人机各项物理常数,搭建无人机环境模拟器,在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型,逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中,在仿真环境随机故障测试后,得到最优的容错控制策略;在推理阶段,对于训练好的策略模型,基于策略网络输出交给无人机执行。本发明在仿真环境中模拟无人机不同的传感器故障组合,在策略与环境交互时,保证固定比例的无故障样本数据的存在,使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略,使得无人机传感器故障时的容错控制更加鲁棒,高效。

    基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

    公开(公告)号:CN113467515A

    公开(公告)日:2021-10-01

    申请号:CN202110828301.3

    申请日:2021-07-22

    Applicant: 南京大学

    Abstract: 本发明公开一种基于虚拟环境模仿重构和强化学习的无人机飞行控制方法,利用在真实飞行环境中采集到的状态转移历史轨迹数据,利用GAIL+BC算法构建基于模仿学习的虚拟环境;在虚拟环境中利用强化学习算法训练无人机飞行策略;将策略迁移到真实环境中。本发明使无人机能够在复杂多变的环境中,实现有效,稳定的自主飞行控制;通过利用历史交互数据构建虚拟环境,并让强化学习Agent在虚拟环境中训练的方式,避免了强化学习的高试错成本弊端,同时不再依赖专家知识和人力,并提高了模型对特殊环境状态的适应能力。通过GAIL算法和BC算法两种算法的结合,避免了基于纯模仿学习算法的收敛性问题,也避免了纯BC算法的模型偏移问题,解决了传统的虚拟环境重构算法的应用难题。

Patent Agency Ranking