面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

    公开(公告)号:CN118586282A

    公开(公告)日:2024-09-03

    申请号:CN202410729427.9

    申请日:2024-06-06

    Applicant: 重庆大学

    Abstract: 本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端,包括采集智能体与仿真环境交互产生的经验数据,包括智能体执行的动作,仿真环境的当前状态信息和下一个状态信息,以及仿真外部奖励信号;利用全连接神经网络构建势能函数网络模型,获取智能体在当前状态和下一个状态的仿真环境的势能值;根据势能值差,通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并,得到最终的奖励信号;利用损失函数对势能函数网络模型进行更新,调整智能体执行动作的策略,使智能体在与环境的交互中获得最大化累积奖励;本发明利用状态之间的新旧策略的优势值差异作为内在奖励,提高了稀疏连续控制任务中的智能体性能,降低了计算成本。

    一种基于世界模型的智能体控制方法

    公开(公告)号:CN118585813A

    公开(公告)日:2024-09-03

    申请号:CN202410730679.3

    申请日:2024-06-06

    Applicant: 重庆大学

    Abstract: 一种基于世界模型的智能体控制方法,包括以下步骤:获取环境观测数据;利用训练数据集训练世界模型;世界模型包括变分自编码模块、序列建模模块、隐状态预测模块和优化模块;变分自编码模块用于对从重播缓冲区中采样的观测数据添加自适应高斯噪声后进行编码,生成潜在向量;序列建模模块用于根据潜在向量和智能体产生的动作向量生成隐状态;隐状态预测模块根据隐状态生成预测结果;优化模块根据隐状态预测模块的预测结果做损失优化模型参数;利用世界模型生成想象轨迹;智能体根据想象轨迹确认最优策略;本发明能够提高模型的泛化能力和鲁棒性,使智能体与世界模型的交互能够更加贴近真实环境,降低想象数据与真实环境数据的差异。

Patent Agency Ranking