基于时间反演对称性的离线强化学习方法及装置

    公开(公告)号:CN119337960A

    公开(公告)日:2025-01-21

    申请号:CN202411363121.2

    申请日:2024-09-27

    Inventor: 詹仙园 成鹏 张策

    Abstract: 本发明提供一种基于时间反演对称性的离线强化学习方法及装置,其中的方法包括:获取当前时刻状态,并将当前时刻状态编码为当前时刻状态的低维表示;基于预先训练的策略网络,根据当前时刻状态的低维表示,预测下一时刻状态的低维表示;基于预先训练的逆动力学模型,根据当前时刻状态的低维表示和下一时刻状态的低维表示,预测当前时刻状态对应动作的低维表示;根据当前时刻状态对应动作的低维表示,获取当前时刻状态对应的目标动作;其中,策略网络和逆动力学模型基于时间反演对称性约束进行训练优化得到,时间反演对称性约束基于前向动力学模型和反向动力学模型进行设置得到。该方法通过在隐空间中提取数据的时间反演对称性这一性特性,并基于时间反演对称性约束训练优化策略网络和逆动力学模型,使得最终隐空间中低维表示的预测更加可靠和稳定,有效提升了强化学习算法在小样本场景下的性能表现,并提升了样本利用率。

    基于持续策略组合的智能体决策方法、装置及电子设备

    公开(公告)号:CN119357663A

    公开(公告)日:2025-01-24

    申请号:CN202411374087.9

    申请日:2024-09-29

    Abstract: 本发明提供一种基于持续策略组合的智能体决策方法、装置及电子设备,其中的方法包括:获取智能体的当前状态;基于预先训练的权重分配网络,根据智能体的当前状态,确定多个子策略对应的权重值;根据多个子策略及其对应的权重值,组合得到智能体对于目标任务的行为策略;其中,所述权重分配网络基于预训练策略网络根据目标任务训练样本集进行训练优化得到,所述预训练策略网络包括参数隔离的多个子策略网络,所述子策略网络包括目标任务策略网络和基础任务策略网络,多个子策略由多个子策略网络对应生成。该方法通过充分利用已有的单一策略,根据智能体本身的当前状态,灵活地组合出更强、更适应环境的策略,不仅增强了智能体面对不同环境动态变化的应对能力,赋予了系统的部分可解释性,与此同时,此过程仅需要收集目标任务的少量训练样本,有效降低了数据采集和标注成本。

    多模态具身智能机器人控制方法及装置

    公开(公告)号:CN119141538A

    公开(公告)日:2024-12-17

    申请号:CN202411363124.6

    申请日:2024-09-27

    Applicant: 清华大学

    Abstract: 本发明提供一种多模态具身智能机器人控制方法及装置,其中的方法包括:获取当前模态指令,当前模态指令至少包括视频指令、文本指令、图片指令以及音频指令中的一项;基于预训练多模态大模型,根据当前模态指令,获取塌缩后表征;基于预先训练的机器人模仿学习网络,根据塌缩后表征和当前环境观测,预测输出目标动作;控制多模态具身智能机器人按照目标动作进行操作;其中,机器人模仿学习网络通过根据单一模态数据样本及其对应的环境观测数据和机器人真实动作构成的训练样本集进行训练优化得到。该方法通过预训练多模态大模型获取塌缩后表征,并利用塌缩后表征预测目标动作,此过程避免了训练机器人模仿学习网络时对多模态人工标注数据的需求,仅根据单一模态数据训练即可达到多模态推理的效果,不仅降低了数据收集和标注成本,同时还提升了模型的推理能力。

    冷源温控和能量优化的智能体离线层次化强化学习方法

    公开(公告)号:CN118642354A

    公开(公告)日:2024-09-13

    申请号:CN202410216374.0

    申请日:2024-02-27

    Abstract: 本发明提供一种冷源温控和能量优化的智能体离线层次化强化学习方法,包括:采集冷源系统以及冷源单元的历史运行数据,进行数据处理生成运行历史数据集;基于冷源系统,通过自动负载工作库目标从无动作的离线强化学习方法学习到状态动作价值函数,基于价值函数提取高层策略进行冷源系统的控制;基于冷源单元,通过概率动力学模型进行学习,引入判别器,将学习过程耦合纳入所述判别器的输入建立合作信息共享,确定低层策略的损失函数,建立低层策略进行冷源单元的控制;将冷源系统的高层策略与冷源单元的低层策略部署至冷却系统,对冷却系统进行在线优化控制。本发明解决了现有冷却系统优化控制数据效率低、分布偏移,高维状态空间难处理的问题。

    自动驾驶训练方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN114372501B

    公开(公告)日:2024-11-29

    申请号:CN202111437745.0

    申请日:2021-11-29

    Applicant: 清华大学

    Inventor: 詹仙园 李键雄

    Abstract: 本发明涉及自动驾驶技术领域,尤其涉及一种自动驾驶训练方法、装置、设备、存储介质及程序产品。方法包括:获取自动驾驶训练所需要的训练样本集,其中,训练样本集包括至少一个专家样本和至少一个非专家样本;通过预设的评分器,确定各非专家样本中的类专家样本,并提高驾驶模仿策略中类专家样本的训练权重,其中,评分器用于对训练样本集中的每一个训练样本进行评分,类专家样本的训练结果与专家样本的训练结果在预设误差内;通过训练样本,按照调整权重后的驾驶模仿策略,对自动驾驶车辆进行模仿训练。本发明用以解决现有技术中对自动驾驶车辆进行训练时,安全性差、效率低的问题,实现安全地对自动驾驶车辆进行高效率训练。

    基于离线多智能体强化学习的数据中心末端冷却系统优化方法

    公开(公告)号:CN118434071A

    公开(公告)日:2024-08-02

    申请号:CN202410416835.9

    申请日:2024-04-08

    Abstract: 本发明提供一种基于离线多智能体强化学习的数据中心末端冷却系统优化方法,包括:获取末端冷却系统历史运行数据并进行数据处理,形成历史数据集;将所述历史数据集根据多智能体的观测特征、动作和当前时刻奖励进行划分,生成末端冷却系统多智能体数据集;基于所述末端冷却系统多智能体数据集通过隐式全局到局部值正则化的离线多智能体强化学习方法对智能体进行离线训练,生成多智能体强化学习模型;将所述多智能体强化学习模型部署至末端冷却控制系统,进行冷却优化控制。本发明解决了现有冷却系统难以满足实际个性化需求、冷却效果不佳的问题。

    基于迭代式策略约束的智能体强化学习方法和装置

    公开(公告)号:CN116681142A

    公开(公告)日:2023-09-01

    申请号:CN202310554313.0

    申请日:2023-05-16

    Abstract: 本发明提供一种基于迭代式策略约束的智能体强化学习方法和装置,包括:基于智能体在任一应用场景的状态,对智能体进行策略离线学习;以离线学习得到的优化策略为初始策略,构造迭代式策略约束项;在最大化奖励在线强化学习的基础上引入迭代式策略约束项,以生成智能体的优化目标;基于优化目标,对智能体进行策略在线强化学习。本发明通过迭代式地更新策略约束,既可以避免离线到在线强化学习早期在线微调阶段的策略性能下降,还可以在训练后期减弱策略约束,以获得最优策略。

    一种实现探索与利用平衡的智能体强化学习方法和装置

    公开(公告)号:CN116663653A

    公开(公告)日:2023-08-29

    申请号:CN202310559043.2

    申请日:2023-05-17

    Applicant: 清华大学

    Abstract: 本发明提供一种实现探索与利用平衡的智能体强化学习方法和装置,包括:构建用于对经验回放池中成功经验进行学习利用的第一贝尔曼算子;构建用于探索未知状态的第二贝尔曼算子;根据第一贝尔曼算子和第二贝尔曼算子,生成探索与利用平衡的贝尔曼算子;利用探索与利用平衡的贝尔曼算子,改进动作家‑评论家算法;基于改进的动作家‑评论家算法,对智能体进行强化学习。本发明通过设计探索与利用平衡的贝尔曼算子来更加有效地解决动作家‑评论家算法中的探索利用平衡问题,从而提高了算法的样本效率和泛化性能,为真实场景的应用提供了可行的解决方案。

    一种基于状态引导策略的离线强化学习方法及系统

    公开(公告)号:CN115577766A

    公开(公告)日:2023-01-06

    申请号:CN202211167935.X

    申请日:2022-09-23

    Applicant: 清华大学

    Inventor: 詹仙园

    Abstract: 本发明提供一种基于状态引导策略的离线强化学习方法及系统,包括:通过离线强化学习数据集进行训练,训练过程中通过指导策略和执行策略以监督和解耦的方式进行学习后,完成策略学习;根据所述策略学习的结果进行测试,所述指导策略根据当前状态信息生成下一步最优的状态信息;所述执行策略根据当前状态信息和所述指导策略生成的最优下一步状态信息,生成执行动作,完成离线强化学习。本发明缓解了现有离线强化学习数据分布迁移难度大问题,提升算法稳定性,又实现了可靠数据外的泛化。

Patent Agency Ranking