-
公开(公告)号:CN118053132A
公开(公告)日:2024-05-17
申请号:CN202410164254.0
申请日:2024-02-05
Applicant: 上海交通大学
IPC: G06V20/56 , G06V10/774 , G06V10/80 , G06N3/092
Abstract: 本公开提供一种面向自动驾驶决策的环境模拟与强化学习系统,包括:交互数据采集模块,将车辆当前时刻需要采取的动作作为输入与仿真环境进行交互,输出四元组信息;环境模拟器学习模块,将当前时刻环境的视觉观测对应的视觉图像和车辆当前时刻需要采取的动作作为输入,输出重建的视觉图像和预测的模拟环境的奖励值;行为策略学习模块,将经过解耦处理获取的可控动态和不可控动态作为输入,输出车辆当前时刻的执行动作。通过本公开,将复杂视觉动态信息解耦处理为可控动态和不可控动态,同时建模两者间的依赖关系,学习更精确的环境模拟器,并对未来不可控动态进行预测,构建强化学习算法,在决策前提前预判未来环境的变化趋势,提高决策的准确性。
-
公开(公告)号:CN117725987A
公开(公告)日:2024-03-19
申请号:CN202311786650.9
申请日:2023-12-25
Applicant: 上海交通大学
IPC: G06N3/096 , G06N3/0442 , G06N3/084 , G06N3/006
Abstract: 本公开提供一种面向智能体视觉控制的迁移强化学习系统,其包括:教师模型预训练模块,采用源域动作离线视频数据对教师模型进行模型训练,确定完成模型训练的教师模型;学生模型训练模块,采用智能体与环境的在线交互数据对学生模型进行模型训练,并将完成模型训练的教师模型迁移至学生模型训练模块对学生模型进行辅助训练,确定完成模型训练的学生模型,将目标域任务的视觉图像作为完成模型训练的学生模型的输入,输出执行目标域任务的动作。通过本公开,采用已有的源域动作离线视频数据辅助在线目标域智能体的学习,有效缓解离线域与在线域之间的域差异,提高目标域智能体解决任务的表现。
-
公开(公告)号:CN118014052A
公开(公告)日:2024-05-10
申请号:CN202410164269.7
申请日:2024-02-05
Applicant: 上海交通大学
Abstract: 本公开提供一种面向智能机器人离线视觉控制的强化学习系统,其包括:源域预训练模块,将源域的数据样本作为输入,源域预训练模块对源域智能体进行预训练处理,输出预训练完成的源域的世界模型、演员网络和评论员网络;域合作表征学习模块,将预设时刻的目标域智能体的视觉观测作为输入,输出经过对齐处理的目标域的隐空间表征和源域的隐空间表征;域合作行为学习模块,将源域的数据样本、目标域的数据样本、目标域智能体的视觉观测作为输入,输出目标域智能体的执行动作。通过本公开,采用易于交互的现成模拟器训练辅助的强化学习模型,为价值函数提供灵活的约束条件,缓解离散数据分布之外价值函数的高估问题,提高离线视觉环境下控制的准确性。
-
公开(公告)号:CN117634272A
公开(公告)日:2024-03-01
申请号:CN202311606624.3
申请日:2023-11-28
Applicant: 上海交通大学
IPC: G06F30/25 , G06F30/28 , G06F113/08 , G06F119/14
Abstract: 本发明提供一种数据处理方法、流体视觉直觉学习数据采集与实验系统,包括:获取视觉图像数据;通过神经辐射场技术,对视觉图像数据进行流体表面多视图3D重构,推断流体内部动力学模型,并反演流体属性;根据流体内部动力学模型和流体属性,进行仿真模拟。本发明从外部视觉表观推理到内部流体粒子动态,推导出流体内部动力学模型,该模型能够进行视觉数据的分析和处理,从而获得较为准确的流体渲染效果;利用渲染器获取渲染效果,并中间获取流体粒子数据,能够与其他可微分的流体粒子推理模型高度适配,能够高效地进行流体场景的数值模拟和场景自定义,实现单场景秒级别的单步模拟时间;整个过程计算时间大幅缩短,仿真速度显著提高。
-
公开(公告)号:CN117744534A
公开(公告)日:2024-03-22
申请号:CN202311870444.6
申请日:2023-12-29
Applicant: 上海交通大学
IPC: G06F30/28 , G06F30/23 , G06F30/25 , G06F30/27 , G06T15/06 , G06T17/20 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N5/04 , G06F111/08 , G06F111/10 , G06F113/08 , G06F119/14
Abstract: 本发明提供一种面向流体模拟的视觉半仿真系统,包括流体动态推理模块和数据处理模块;其中,所述流体动态推理模块利用机器学习模型,通过学习和分析流体粒子在不同条件下的运动和相互作用,构建出概率式模型预测流体粒子的位置,进行流体仿真;其中,所述数据处理模块处理和管理流体仿真相关的数据,支持所述流体动态推理模块的正常运行。本发明通过机器学习模型的预测,减少了实际仿真计算的负担,从而提高了计算效率;本发明在需要实时流体仿真的场景下,基于机器学习的方法能够更快地生成流体的行为,使得系统能够更加及时地响应外部输入;该系统采用概率式建模,使得在流体属性等条件难以测量的环境下,仍能展现出强大的泛化能力。
-
公开(公告)号:CN117584127A
公开(公告)日:2024-02-23
申请号:CN202311639982.4
申请日:2023-12-04
Applicant: 上海交通大学
IPC: B25J9/16
Abstract: 本公开提供一种面向机械臂多任务长程决策的强化学习系统,其包括:混合世界模型模块,将当前时刻的视觉观测、执行的动作以及当前任务的第一分类任务变量作为输入,采用高斯混合变量获取隐空间中输入量的空间外观的多模态分布,输出重建的图像;预测性经验回放模块,将第二分类任务变量作为输入,采用上一任务的生成模型副本、世界模型副本以及动作模型副本进行轨迹重演,并采用重演轨迹和当前轨迹对当前任务的生成器和机械臂进行训练,确定训练完成的机械臂和智能体。通过本公开,控制机械臂实现高效记忆的数据重演,克服世界模型的灾难性遗忘,在机械臂多任务长程决策场景中面对多个任务时,能够灵活地做出决策,提高机械臂的自主性和适应性。
-
公开(公告)号:CN115239498A
公开(公告)日:2022-10-25
申请号:CN202210904610.9
申请日:2022-07-29
Applicant: 上海交通大学 , 中国太平洋保险(集团)股份有限公司 , 长江养老保险股份有限公司
Abstract: 本发明提供基于时序卷积和图神经网络的股票收益排序系统,包括:交易数据预处理模块,其以若干个股票作为输入,输出由归一化的股票样本数据,股票样本数据包括交易特征数据张量、真实收益率张量和插值旗标张量;基于时序卷积和图神经网络的股票收益预测模块,其以所述股票交易特征数据张量和插值旗标张量为输入,输出预测收益率张量。本发明以多尺度的时序卷积方法挖掘并整合股票的长期和短期的依赖关系;以插值方法和插值旗标在最大化利用已有的股票数据的同时,实现对交易日上不连续的交易数据的建模,更好地适应现实市场环境中经常出现的股票停牌现象,缓解现有停牌插值方法给模型学习带来的困难,使得系统在真实场景中具有更强的鲁棒性。
-
-
-
-
-
-