用于目标控制的离线强化学习方法、装置和设备

    公开(公告)号:CN114186474B

    公开(公告)日:2025-05-09

    申请号:CN202111256006.1

    申请日:2021-10-27

    Applicant: 清华大学

    Abstract: 本发明涉及深度学习技术领域,具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中,用于目标控制的离线强化学习方法,包括:获取历史数据;基于历史数据,更新预设的行为策略模拟器,确定行为策略、和行为策略的奖励期望;基于历史数据、行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,策略优化目标函数为基于约束项和策略性能提升项构造的;约束项为基于最大似然估计的方法构造的;策略性能提升项为基于行为策略的奖励期望构造的。如此,基于最大似然估计法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,提高了优化策略的表现力。

    大语言模型自我评价方法、装置、电子设备及存储介质

    公开(公告)号:CN119337944A

    公开(公告)日:2025-01-21

    申请号:CN202411362689.2

    申请日:2024-09-27

    Inventor: 詹仙园 胡潇 张策

    Abstract: 本发明提供一种大语言模型自我评价方法、装置、电子设备及存储介质,其中的方法包括:获取目标输入,目标输入包括待解答问题及其对应的回答结果;基于预先训练的大语言模型,根据目标输入,预测得到自我评价结果;其中,大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,正样本和负样本均包括问题、答案和质量标签。该方法通过基于判别器和生成器根据正样本和负样本对大语言模型进行有监督训练,能够有效提升大语言模型的自我评价准确度,进而充分利用已有数据实现大语言模型的自我进化,提升大语言模型的推理能力和泛化能力。

    一种动力学模型支持的有偏好模仿学习方法及系统

    公开(公告)号:CN115099037B

    公开(公告)日:2024-11-29

    申请号:CN202210744890.1

    申请日:2022-06-27

    Applicant: 清华大学

    Inventor: 詹仙园 张文嘉

    Abstract: 本发明提供一种动力学模型支持的有偏好模仿学习方法及系统包括:获取自动驾驶训练所需要的训练样本集,其中,所述训练样本包含离线专家数据集和动力学模型数据集;通过预设的判别器输出加权值训练驾驶模仿策略模型;通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练。本发明解决了现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷,以实现快速高效的有偏好模仿学习。

    一种面向自动驾驶汽车的约束型环境安全探索方法

    公开(公告)号:CN118964791A

    公开(公告)日:2024-11-15

    申请号:CN202410966744.2

    申请日:2024-07-18

    Applicant: 清华大学

    Abstract: 本申请提出了一种面向自动驾驶汽车的约束型环境安全探索方法,涉及自动驾驶技术领域,其中,该方法包括:步骤S1:获取初始的不确定模型;步骤S2:采用不动点迭代求解不确定模型下的最大可行区域;步骤S3:遍历最大可行区域内的所有状态动作对,通过与环境交互采集环境数据;步骤S4:利用最大可行区域内的环境数据,采用最大团搜索求解最大可行区域下的近似最小不确定模型,并将不确定模型更新为近似最小不确定模型;步骤S5:迭代进行步骤S2‑S4,直至最大可行区域和不确定模型不再更新,得到驾驶策略的最大可行区域。采用上述方案的本发明能够获取约束型环境中可安全探索的最大可行区域。

    一种基于凸包约束的离线强化学习方法和装置

    公开(公告)号:CN114970881B

    公开(公告)日:2024-08-20

    申请号:CN202210457670.0

    申请日:2022-04-27

    Applicant: 清华大学

    Inventor: 詹仙园 李健雄

    Abstract: 本发明涉及一种基于凸包约束的离线强化学习方法和装置,包括:对于离线强化学习每一次迭代,从离线强化学习数据集随机抽取一批样本;利用抽取的样本构建距离函数;根据预存的价值函数和距离函数,生成满足凸包约束的策略优化目标;利用满足凸包约束的策略优化目标实现相应迭代过程的策略寻优;其中,距离函数为用于衡量离线强化学习样本空间内任意一个数据点是否处于离线强化学习数据集凸包之内的分布间度量函数。本发明通过设定距离函数和策略优化目标的方式,允许优化策略在数据集的凸包内寻优,提升了优化策略的性能和泛化性,解决了传统离线强化学习策略约束程度较大和策略性能提升空间有限的问题。

    基于不完美奖励函数的离线策略优化方法及装置

    公开(公告)号:CN115564023A

    公开(公告)日:2023-01-03

    申请号:CN202211193808.7

    申请日:2022-09-28

    Abstract: 本发明实施例提供一种基于不完美奖励函数的离线策略优化方法及装置,包括:获取待决策对象的状态数据;将所述状态数据输入至策略优化模型,获得所述策略优化模型输出的策略优化结果;其中,所述策略优化模型是基于预先设定的奖励函数在离线场景下通过强化学习构建的。由于本发明的策略优化模型基于预先设定的奖励函数在离线场景下通过强化学习构建,仅依赖于少量专家数据,适用于各种类型的不完美奖励,整个过程可以以完全离线的方式求解,无需任何在线交互,可以缩小由于合理的奖励函数难以设计而导致的得到的策略存在的偏差,提高了决策的准确度。

    机械结构的控制方法、装置及系统

    公开(公告)号:CN114661019A

    公开(公告)日:2022-06-24

    申请号:CN202210204784.4

    申请日:2022-03-03

    Applicant: 清华大学

    Abstract: 本发明涉及自动控制领域,提供一种机械结构的控制方法、装置及系统,方法包括:获取机械结构对应的示教数据;其中,示教数据是人工控制机械结构执行目标任务过程中生成的;基于示教数据,对控制机械结构用的算法智能体进行训练;通过训练后的算法智能体,控制机械结构执行目标任务。通过人工控制机械结构执行目标任务过程中生成的示教数据对算法智能体进行训练,进而利用训练后的算法智能体控制机械结构执行目标任务,由于整个控制过程中无需建模环节,对于不便建模的场景同样适用,适用范围更广,同时,由于示教数据易于根据不同的目标任务进行调整或者重新获得,使得机械结构的控制过程更加灵活。

    自动驾驶训练方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN114372501A

    公开(公告)日:2022-04-19

    申请号:CN202111437745.0

    申请日:2021-11-29

    Applicant: 清华大学

    Inventor: 詹仙园 李键雄

    Abstract: 本发明涉及自动驾驶技术领域,尤其涉及一种自动驾驶训练方法、装置、设备、存储介质及程序产品。方法包括:获取自动驾驶训练所需要的训练样本集,其中,训练样本集包括至少一个专家样本和至少一个非专家样本;通过预设的评分器,确定各非专家样本中的类专家样本,并提高驾驶模仿策略中类专家样本的训练权重,其中,评分器用于对训练样本集中的每一个训练样本进行评分,类专家样本的训练结果与专家样本的训练结果在预设误差内;通过训练样本,按照调整权重后的驾驶模仿策略,对自动驾驶车辆进行模仿训练。本发明用以解决现有技术中对自动驾驶车辆进行训练时,安全性差、效率低的问题,实现安全地对自动驾驶车辆进行高效率训练。

    面向端到端自动驾驶的安全强化学习训练方法及装置

    公开(公告)号:CN119599088A

    公开(公告)日:2025-03-11

    申请号:CN202411432359.6

    申请日:2024-10-14

    Applicant: 清华大学

    Abstract: 本申请涉及自动驾驶技术领域,特别涉及一种面向端到端自动驾驶的安全强化学习训练方法及装置,其中,方法包括:基于预设驾驶环境模型和不确定性约束衰减函数,检测车辆的当前决控策略的安全状态;利用预设集成模型拟合预设驾驶环境模型的分散随机误差;根据价值函数的自洽条件更新价值函数,评估当前决控策略的性能价值;根据不确定性约束衰减函数的自洽条件,更新不确定性约束衰减函数,扩展对应的可行区域;在安全状态达到预设等级时,基于随机误差、性能价值和扩展后的可行区域对当前决控策略进行迭代更新,直至当前决控策略的平均累计回报达到预设阈值或者达到最大迭代次数,得到最终可行决控策略,以强化目标自动驾驶系统。

Patent Agency Ranking