-
公开(公告)号:CN119580029A
公开(公告)日:2025-03-07
申请号:CN202411601987.2
申请日:2024-11-11
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06N3/008 , G06N3/045 , G06V10/764
Abstract: 本公开涉及一种基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品,单智能体强化学习模型单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,辅助任务网络包括状态预测模型,根据目标智能体当前时间段基于针对目标智能体的观测图像而得到的状态信息和动作信息,以及当前时间段的奖赏信息,通过辅助任务网络从视觉表征的角度出发,学习目标智能体的状态表征和动作表征,通过强化学习网络为目标智能体选择最佳决策动作,并且,充分利用强化学习中时间段的时序信息,可以实现单智能体在具有挑战的以图像作为状态输入的复杂连续控制任务中的性能和样本效率提升。