一种基于事件触发机制的模型训练与策略优化方法及系统

    公开(公告)号:CN117763974A

    公开(公告)日:2024-03-26

    申请号:CN202410039006.3

    申请日:2024-01-10

    Applicant: 清华大学

    Abstract: 本发明公开一种基于事件触发机制的模型训练与策略优化方法及系统,涉及人工智能技术领域,该方法包括:初始化策略网络和动态模型,初始化重放缓冲区,并重复以下步骤:采集样本数据,并存储至重放缓冲区中;基于新增样本数据计算模型转移,并判断模型转移是否达到设定阈值;若模型转移未达到设定阈值,则不更新当前动态模型和当前策略网络,直接返回采集样本数据的步骤;若模型转移达到设定阈值,则基于新增样本数据更新当前动态模型和当前策略网络,并返回采集样本数据的步骤;直到当前策略网络达到预定性能要求,得到最佳动态模型和最佳策略网络。本发明能够改进模型驱动的强化学习系统的工作过程,提高其性能,使其更适合应对复杂任务和环境。

    一种实现探索与利用平衡的智能体强化学习方法和装置

    公开(公告)号:CN116663653A

    公开(公告)日:2023-08-29

    申请号:CN202310559043.2

    申请日:2023-05-17

    Applicant: 清华大学

    Abstract: 本发明提供一种实现探索与利用平衡的智能体强化学习方法和装置,包括:构建用于对经验回放池中成功经验进行学习利用的第一贝尔曼算子;构建用于探索未知状态的第二贝尔曼算子;根据第一贝尔曼算子和第二贝尔曼算子,生成探索与利用平衡的贝尔曼算子;利用探索与利用平衡的贝尔曼算子,改进动作家‑评论家算法;基于改进的动作家‑评论家算法,对智能体进行强化学习。本发明通过设计探索与利用平衡的贝尔曼算子来更加有效地解决动作家‑评论家算法中的探索利用平衡问题,从而提高了算法的样本效率和泛化性能,为真实场景的应用提供了可行的解决方案。

    冷源温控和能量优化的智能体离线层次化强化学习方法

    公开(公告)号:CN118642354A

    公开(公告)日:2024-09-13

    申请号:CN202410216374.0

    申请日:2024-02-27

    Abstract: 本发明提供一种冷源温控和能量优化的智能体离线层次化强化学习方法,包括:采集冷源系统以及冷源单元的历史运行数据,进行数据处理生成运行历史数据集;基于冷源系统,通过自动负载工作库目标从无动作的离线强化学习方法学习到状态动作价值函数,基于价值函数提取高层策略进行冷源系统的控制;基于冷源单元,通过概率动力学模型进行学习,引入判别器,将学习过程耦合纳入所述判别器的输入建立合作信息共享,确定低层策略的损失函数,建立低层策略进行冷源单元的控制;将冷源系统的高层策略与冷源单元的低层策略部署至冷却系统,对冷却系统进行在线优化控制。本发明解决了现有冷却系统优化控制数据效率低、分布偏移,高维状态空间难处理的问题。

    基于动态高层规划器的智能体层次化强化学习方法及系统

    公开(公告)号:CN117872758A

    公开(公告)日:2024-04-12

    申请号:CN202410039334.3

    申请日:2024-01-10

    Applicant: 清华大学

    Abstract: 本发明公开一种基于动态高层规划器的智能体层次化强化学习方法及系统,涉及智能体行为自主控制技术领域。所述方法包括:在当前主任务迭代次数下,根据初始化的智能体的状态和任务目标对约束优化问题进行求解得到智能体的子目标序列;根据子目标序列中各子目标对上一主任务迭代次数下低层控制器策略模型的策略和高层规划器进行更新,得到当前主任务迭代次数下低层控制器策略模型的策略和高层规划器,更新迭代次数进入下次迭代,直到达到设定主任务迭代次数。本发明可解决HRL中的非稳态性问题,使得在面对未知场景下的长周期复杂任务,智能体在运行过程中,高层规划的策略与低层控制的策略可以有效进行分工合作,并最终完成给定的任务。

Patent Agency Ranking