-
公开(公告)号:CN119357663A
公开(公告)日:2025-01-24
申请号:CN202411374087.9
申请日:2024-09-29
Applicant: 清华大学 , 清华大学无锡应用技术研究院
IPC: G06F18/214 , G06F18/24 , G06N3/045 , G06N3/084
Abstract: 本发明提供一种基于持续策略组合的智能体决策方法、装置及电子设备,其中的方法包括:获取智能体的当前状态;基于预先训练的权重分配网络,根据智能体的当前状态,确定多个子策略对应的权重值;根据多个子策略及其对应的权重值,组合得到智能体对于目标任务的行为策略;其中,所述权重分配网络基于预训练策略网络根据目标任务训练样本集进行训练优化得到,所述预训练策略网络包括参数隔离的多个子策略网络,所述子策略网络包括目标任务策略网络和基础任务策略网络,多个子策略由多个子策略网络对应生成。该方法通过充分利用已有的单一策略,根据智能体本身的当前状态,灵活地组合出更强、更适应环境的策略,不仅增强了智能体面对不同环境动态变化的应对能力,赋予了系统的部分可解释性,与此同时,此过程仅需要收集目标任务的少量训练样本,有效降低了数据采集和标注成本。
-
公开(公告)号:CN118365980A
公开(公告)日:2024-07-19
申请号:CN202410210127.X
申请日:2024-02-26
Applicant: 清华大学
IPC: G06V10/774 , G06V10/86 , G06V20/40 , G06V20/70
Abstract: 本发明提供一种基于内隐偏好学习的多模态表征方法及系统,包括:获取原始视频图像和文本表征;提取所述原始视频图像的原始图像序列,通过预设的偏好学习模型对所述原始图像序列进行随机片段抽取,对抽取的片段进行隐式偏好标注并对偏好奖励函数进行重新参数化,确定最佳图像序列;将所述最佳图像序列与所述文本表征进行对齐,完成文本表征语义与原始视频图像的匹配。本发明解决了现有下游模型策略学习资源消耗大、效率低的问题。
-
公开(公告)号:CN118964791A
公开(公告)日:2024-11-15
申请号:CN202410966744.2
申请日:2024-07-18
Applicant: 清华大学
Abstract: 本申请提出了一种面向自动驾驶汽车的约束型环境安全探索方法,涉及自动驾驶技术领域,其中,该方法包括:步骤S1:获取初始的不确定模型;步骤S2:采用不动点迭代求解不确定模型下的最大可行区域;步骤S3:遍历最大可行区域内的所有状态动作对,通过与环境交互采集环境数据;步骤S4:利用最大可行区域内的环境数据,采用最大团搜索求解最大可行区域下的近似最小不确定模型,并将不确定模型更新为近似最小不确定模型;步骤S5:迭代进行步骤S2‑S4,直至最大可行区域和不确定模型不再更新,得到驾驶策略的最大可行区域。采用上述方案的本发明能够获取约束型环境中可安全探索的最大可行区域。
-
公开(公告)号:CN119739150A
公开(公告)日:2025-04-01
申请号:CN202411363122.7
申请日:2024-09-27
Applicant: 清华大学 , 毫末智行科技有限公司
Abstract: 本发明提供一种基于扩散模型的自动驾驶轨迹规划方法、装置及电子设备,其中的方法包括:获取周车信息和道路信息;基于预先训练的轨迹规划模型,根据周车信息和道路信息,预测自车轨迹规划和周车轨迹;其中,轨迹规划模型包括环境编码器和轨迹规划解码器,轨迹规划解码器基于扩散模型构建得到,轨迹规划模型基于周车信息样本、道路信息样本、导航信息样本、噪声样本以及真实驾驶轨迹构成的训练样本集进行训练优化得到。该方法通过将扩散模型应用于自动驾驶,能够根据实时的道路驾驶情况准确预测自车及周车的自动驾驶轨迹,不仅提升了自动驾驶系统的安全性,还可以预测和适应复杂的交通场景,进而提升用户体验。
-
公开(公告)号:CN119370109A
公开(公告)日:2025-01-28
申请号:CN202411389343.1
申请日:2024-09-30
Applicant: 清华大学
IPC: B60W50/00 , B60W60/00 , G06F18/2131 , G06N3/092
Abstract: 本公开涉及适用于端到端自动驾驶的动作平滑型强化学习策略网络。包括:获取传感器采集的观测数据;将观测数据输入策略网络中的傅里叶滤波层,可以过滤观测噪音、提取观测输入中的重要频率,并得到滤波后的特征;将当前时刻的滤波后的特征输入策略网络中的后续子网络,得到车辆控制动作,车辆控制动作用于控制车辆进行自动驾驶;子网络使用雅克比正则化方法控制策略函数的平滑程度。根据本申请实施例,可以有效地解决强化学习用于端到端自动驾驶的动作震荡问题,提高策略网络输出的动作平滑性。
-
公开(公告)号:CN117494833A
公开(公告)日:2024-02-02
申请号:CN202311285208.8
申请日:2023-09-28
Applicant: 清华大学
Abstract: 本发明提供一种用于生成安全策略的离线强化学习方法及相关组件,该方法包括:基于离线强化学习数据集学习可行价值函数,以根据可行价值函数确定离线强化学习数据集中的最大可行区域;最大可行区域内当前状态至少存在一个最安全策略保证约束违反;基于离线强化学习数据集学习价值函数;根据可行价值函数和价值函数确定离线可行性约束的优化目标;根据优化目标,基于判别器引导的扩散模型提取智能体离线强化学习的安全策略。本发明的方法包括三个解耦的学习过程,具有良好的训练稳定性,能够保证在所有评估任务中获得满意安全性能,同时获得较高的奖励,可以实现离线强化学习中协同智能体确定安全策略,避免在场景中安全事故的发生。
-
-
-
-
-