-
公开(公告)号:CN112529160B
公开(公告)日:2024-08-23
申请号:CN202011450396.1
申请日:2020-12-09
Applicant: 南京大学
IPC: G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/09 , G06T7/207 , G06T9/00
Abstract: 本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法,首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码,之后对编码进行二值化处理;获得智能体的图像数据的二值编码后,使用全连接神经网络输出奖赏信号;最后将奖赏信号输入给现有的智能体进行学习,从而获得能够很好地模仿专家行为的智能体。在实用阶段,只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据,就能获得高效的奖赏信号,该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据,因此模型可运行在搭载有摄像器材的设备上。
-
公开(公告)号:CN112529160A
公开(公告)日:2021-03-19
申请号:CN202011450396.1
申请日:2020-12-09
Applicant: 南京大学
Abstract: 本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法,首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码,之后对编码进行二值化处理;获得智能体的图像数据的二值编码后,使用全连接神经网络输出奖赏信号;最后将奖赏信号输入给现有的智能体进行学习,从而获得能够很好地模仿专家行为的智能体。在实用阶段,只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据,就能获得高效的奖赏信号,该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据,因此模型可运行在搭载有摄像器材的设备上。
-