一种面向自动驾驶决策的环境模拟与强化学习系统

    公开(公告)号:CN118053132A

    公开(公告)日:2024-05-17

    申请号:CN202410164254.0

    申请日:2024-02-05

    Abstract: 本公开提供一种面向自动驾驶决策的环境模拟与强化学习系统,包括:交互数据采集模块,将车辆当前时刻需要采取的动作作为输入与仿真环境进行交互,输出四元组信息;环境模拟器学习模块,将当前时刻环境的视觉观测对应的视觉图像和车辆当前时刻需要采取的动作作为输入,输出重建的视觉图像和预测的模拟环境的奖励值;行为策略学习模块,将经过解耦处理获取的可控动态和不可控动态作为输入,输出车辆当前时刻的执行动作。通过本公开,将复杂视觉动态信息解耦处理为可控动态和不可控动态,同时建模两者间的依赖关系,学习更精确的环境模拟器,并对未来不可控动态进行预测,构建强化学习算法,在决策前提前预判未来环境的变化趋势,提高决策的准确性。

    一种面向智能体视觉控制的迁移强化学习系统

    公开(公告)号:CN117725987A

    公开(公告)日:2024-03-19

    申请号:CN202311786650.9

    申请日:2023-12-25

    Abstract: 本公开提供一种面向智能体视觉控制的迁移强化学习系统,其包括:教师模型预训练模块,采用源域动作离线视频数据对教师模型进行模型训练,确定完成模型训练的教师模型;学生模型训练模块,采用智能体与环境的在线交互数据对学生模型进行模型训练,并将完成模型训练的教师模型迁移至学生模型训练模块对学生模型进行辅助训练,确定完成模型训练的学生模型,将目标域任务的视觉图像作为完成模型训练的学生模型的输入,输出执行目标域任务的动作。通过本公开,采用已有的源域动作离线视频数据辅助在线目标域智能体的学习,有效缓解离线域与在线域之间的域差异,提高目标域智能体解决任务的表现。

    一种面向智能机器人离线视觉控制的强化学习系统

    公开(公告)号:CN118014052A

    公开(公告)日:2024-05-10

    申请号:CN202410164269.7

    申请日:2024-02-05

    Abstract: 本公开提供一种面向智能机器人离线视觉控制的强化学习系统,其包括:源域预训练模块,将源域的数据样本作为输入,源域预训练模块对源域智能体进行预训练处理,输出预训练完成的源域的世界模型、演员网络和评论员网络;域合作表征学习模块,将预设时刻的目标域智能体的视觉观测作为输入,输出经过对齐处理的目标域的隐空间表征和源域的隐空间表征;域合作行为学习模块,将源域的数据样本、目标域的数据样本、目标域智能体的视觉观测作为输入,输出目标域智能体的执行动作。通过本公开,采用易于交互的现成模拟器训练辅助的强化学习模型,为价值函数提供灵活的约束条件,缓解离散数据分布之外价值函数的高估问题,提高离线视觉环境下控制的准确性。

    数据处理方法、流体视觉直觉学习数据采集与实验系统

    公开(公告)号:CN117634272A

    公开(公告)日:2024-03-01

    申请号:CN202311606624.3

    申请日:2023-11-28

    Abstract: 本发明提供一种数据处理方法、流体视觉直觉学习数据采集与实验系统,包括:获取视觉图像数据;通过神经辐射场技术,对视觉图像数据进行流体表面多视图3D重构,推断流体内部动力学模型,并反演流体属性;根据流体内部动力学模型和流体属性,进行仿真模拟。本发明从外部视觉表观推理到内部流体粒子动态,推导出流体内部动力学模型,该模型能够进行视觉数据的分析和处理,从而获得较为准确的流体渲染效果;利用渲染器获取渲染效果,并中间获取流体粒子数据,能够与其他可微分的流体粒子推理模型高度适配,能够高效地进行流体场景的数值模拟和场景自定义,实现单场景秒级别的单步模拟时间;整个过程计算时间大幅缩短,仿真速度显著提高。

    一种面向机械臂多任务长程决策的强化学习系统

    公开(公告)号:CN117584127A

    公开(公告)日:2024-02-23

    申请号:CN202311639982.4

    申请日:2023-12-04

    Abstract: 本公开提供一种面向机械臂多任务长程决策的强化学习系统,其包括:混合世界模型模块,将当前时刻的视觉观测、执行的动作以及当前任务的第一分类任务变量作为输入,采用高斯混合变量获取隐空间中输入量的空间外观的多模态分布,输出重建的图像;预测性经验回放模块,将第二分类任务变量作为输入,采用上一任务的生成模型副本、世界模型副本以及动作模型副本进行轨迹重演,并采用重演轨迹和当前轨迹对当前任务的生成器和机械臂进行训练,确定训练完成的机械臂和智能体。通过本公开,控制机械臂实现高效记忆的数据重演,克服世界模型的灾难性遗忘,在机械臂多任务长程决策场景中面对多个任务时,能够灵活地做出决策,提高机械臂的自主性和适应性。

Patent Agency Ranking