一种强化学习在大型仿真环境下的加速训练方法

    公开(公告)号:CN114610486B

    公开(公告)日:2025-03-04

    申请号:CN202210224866.5

    申请日:2022-03-09

    Applicant: 南开大学

    Abstract: 本发明公开了一种强化学习在大型仿真环境下的加速训练方法,包括:搭建环境仿真模型、初始强化学习模型和自监督模型,通过环境仿真模型和初始强化学习模型的不断交互,产生图像数据;采用分布式架构采集图像数据;通过自监督模型提取图像数据中的低维特征,得到特征编码;基于强化学习模型将特征编码的多个历史状态信息进行保存,并对不同的历史状态信息赋予不同的权重系数,最终得到一个满足马尔科夫性质的状态编码,输出一组序列数据,作为训练数据;基于训练数据对初始强化学习模型进行分布式训练,直至满足优化目标,得到最终强化学习模型。本发明具有训练速度快,且能对采样数据进行最大化利用。

    一种强化学习在大型仿真环境下的加速训练方法

    公开(公告)号:CN114610486A

    公开(公告)日:2022-06-10

    申请号:CN202210224866.5

    申请日:2022-03-09

    Applicant: 南开大学

    Abstract: 本发明公开了一种强化学习在大型仿真环境下的加速训练方法,包括:搭建环境仿真模型、初始强化学习模型和自监督模型,通过环境仿真模型和初始强化学习模型的不断交互,产生图像数据;采用分布式架构采集图像数据;通过自监督模型提取图像数据中的低维特征,得到特征编码;基于强化学习模型将特征编码的多个历史状态信息进行保存,并对不同的历史状态信息赋予不同的权重系数,最终得到一个满足马尔科夫性质的状态编码,输出一组序列数据,作为训练数据;基于训练数据对初始强化学习模型进行分布式训练,直至满足优化目标,得到最终强化学习模型。本发明具有训练速度快,且能对采样数据进行最大化利用。

Patent Agency Ranking