基于持续策略组合的智能体决策方法、装置及电子设备

    公开(公告)号:CN119357663A

    公开(公告)日:2025-01-24

    申请号:CN202411374087.9

    申请日:2024-09-29

    Abstract: 本发明提供一种基于持续策略组合的智能体决策方法、装置及电子设备,其中的方法包括:获取智能体的当前状态;基于预先训练的权重分配网络,根据智能体的当前状态,确定多个子策略对应的权重值;根据多个子策略及其对应的权重值,组合得到智能体对于目标任务的行为策略;其中,所述权重分配网络基于预训练策略网络根据目标任务训练样本集进行训练优化得到,所述预训练策略网络包括参数隔离的多个子策略网络,所述子策略网络包括目标任务策略网络和基础任务策略网络,多个子策略由多个子策略网络对应生成。该方法通过充分利用已有的单一策略,根据智能体本身的当前状态,灵活地组合出更强、更适应环境的策略,不仅增强了智能体面对不同环境动态变化的应对能力,赋予了系统的部分可解释性,与此同时,此过程仅需要收集目标任务的少量训练样本,有效降低了数据采集和标注成本。

    一种基于内隐偏好学习的多模态表征方法及系统

    公开(公告)号:CN118365980A

    公开(公告)日:2024-07-19

    申请号:CN202410210127.X

    申请日:2024-02-26

    Applicant: 清华大学

    Abstract: 本发明提供一种基于内隐偏好学习的多模态表征方法及系统,包括:获取原始视频图像和文本表征;提取所述原始视频图像的原始图像序列,通过预设的偏好学习模型对所述原始图像序列进行随机片段抽取,对抽取的片段进行隐式偏好标注并对偏好奖励函数进行重新参数化,确定最佳图像序列;将所述最佳图像序列与所述文本表征进行对齐,完成文本表征语义与原始视频图像的匹配。本发明解决了现有下游模型策略学习资源消耗大、效率低的问题。

    一种面向自动驾驶汽车的约束型环境安全探索方法

    公开(公告)号:CN118964791A

    公开(公告)日:2024-11-15

    申请号:CN202410966744.2

    申请日:2024-07-18

    Applicant: 清华大学

    Abstract: 本申请提出了一种面向自动驾驶汽车的约束型环境安全探索方法,涉及自动驾驶技术领域,其中,该方法包括:步骤S1:获取初始的不确定模型;步骤S2:采用不动点迭代求解不确定模型下的最大可行区域;步骤S3:遍历最大可行区域内的所有状态动作对,通过与环境交互采集环境数据;步骤S4:利用最大可行区域内的环境数据,采用最大团搜索求解最大可行区域下的近似最小不确定模型,并将不确定模型更新为近似最小不确定模型;步骤S5:迭代进行步骤S2‑S4,直至最大可行区域和不确定模型不再更新,得到驾驶策略的最大可行区域。采用上述方案的本发明能够获取约束型环境中可安全探索的最大可行区域。

    用于生成安全策略的离线强化学习方法及相关组件

    公开(公告)号:CN117494833A

    公开(公告)日:2024-02-02

    申请号:CN202311285208.8

    申请日:2023-09-28

    Applicant: 清华大学

    Abstract: 本发明提供一种用于生成安全策略的离线强化学习方法及相关组件,该方法包括:基于离线强化学习数据集学习可行价值函数,以根据可行价值函数确定离线强化学习数据集中的最大可行区域;最大可行区域内当前状态至少存在一个最安全策略保证约束违反;基于离线强化学习数据集学习价值函数;根据可行价值函数和价值函数确定离线可行性约束的优化目标;根据优化目标,基于判别器引导的扩散模型提取智能体离线强化学习的安全策略。本发明的方法包括三个解耦的学习过程,具有良好的训练稳定性,能够保证在所有评估任务中获得满意安全性能,同时获得较高的奖励,可以实现离线强化学习中协同智能体确定安全策略,避免在场景中安全事故的发生。

Patent Agency Ranking