基于动作因果性评估的深度强化学习高效探索方法

    公开(公告)号:CN118886446A

    公开(公告)日:2024-11-01

    申请号:CN202411149185.2

    申请日:2024-08-21

    Applicant: 安徽大学

    Abstract: 本发明公开了基于动作因果性评估的深度强化学习高效探索方法,包括:第一阶段在不同的环境中,使用逆动态模型训练智能体的动作对环境的影响得到动作因果评估网络;根据动作因果评估网络,输入当前时刻状态和动作计算在每个动作对下一时刻环境状态变化的影响程度大小;设置一个阈值对智能体的动作进行筛选,得到智能体的最小动作空间和冗余动作空间;获取智能体环境信息,与最小动作空间共同输入深度强化学习模型,结合近端策略优化算法,输出智能体执行的动作并获取环境的反馈信息,直至训练结束;评估模型的性能,检查在不同的环境中是否收敛。本发明提出的方法兼顾高效性、灵活性和适应性,为智能体在复杂环境中的应用提供了有力支持。

Patent Agency Ranking