-
公开(公告)号:CN117010475A
公开(公告)日:2023-11-07
申请号:CN202310983240.7
申请日:2023-08-07
Applicant: 同济大学
IPC: G06N3/092 , G06N3/048 , G06N3/0464 , G06N3/0455 , G06N3/088 , G06V10/40
Abstract: 本发明提供一种基于最大熵内在奖励的无监督技能学习系统,属于机器人自主动作学习技术领域,提出了一个多物体表征学习模型,能够以无监督的方式,将场景中的物体从图像的背景中解耦开,得到紧凑的多物体表征;构建一个以物体为中心的最大熵内在奖励函数,来衡量探索样本集的整体信息熵,通过内在奖励进行任务无关的强化学习训练,从而学习到一个机器人高效探索策略,驱动机器人在环境中探索尽可能新的样本;利用预训练的多物体表征学习模型和机器人探索策略,作为下游特定任务学习的感知模型和控制模型的初始化,能够显著提升下游任务的学习效率和学习效果。
-
公开(公告)号:CN115070753B
公开(公告)日:2024-11-08
申请号:CN202210469373.8
申请日:2022-04-28
Applicant: 同济大学
IPC: B25J9/16 , G06F17/16 , G06V10/774
Abstract: 本发明涉及一种基于无监督图像编辑的多目标强化学习方法,包括:获取关于机器人控制场景的多目标任务数据集;训练对抗生成网络和特征空间编码器,将图像中与任务高度相关与不相关的因素进行解耦;对每个子空间对应全连接层的权重进行奇异值分解,获得贡献最大的若干个特征向量作为有语义信息的可编辑方向,并训练可编辑方向编码器来识别出可编辑方向的类别和尺度;基于可编辑方向编码器的输出得到图像的可编辑表征空间,作为控制策略网络的输入以及奖励函数的计算,同时通过在可编辑表征空间中可控地采样出各种目标任务来训练机器人,最终得到可完成多个目标的控制策略。与现有技术相比,本发明具有能够无监督解耦开任务相关因素、提升样本效率和泛化性能等优点。
-
公开(公告)号:CN114170454A
公开(公告)日:2022-03-11
申请号:CN202111303088.0
申请日:2021-11-04
Applicant: 同济大学
Abstract: 一种基于关节分组策略的智能体元动作学习方法,用于机器人自动控制,通过关节分组和元动作的时空融合来控制机器人快速学会新任务,从而避免了花费大量时间进行从头训练。提出了一个信息论目标来优化强化学习算法训练机器人,从而学会一系列多样的元动作策略;基于动态时间规整算法进行关节之间的轨迹相似性计算,进而基于层次聚类算法实现机器人关节的分组;根据关节组对应掩码得到不同关节组的元动作控制策略;构建层次结构的机器人总控制策略网络,通过线性组合各个关节组元动作策略的权重,实现在时间层面和空间层面上的元动作融合,从而能够快速学会新任务;同时,增强机器人动作的协调性和连贯性,在新任务上能够达到更好的表现。
-
公开(公告)号:CN112809689A
公开(公告)日:2021-05-18
申请号:CN202110217079.3
申请日:2021-02-26
Applicant: 同济大学
Abstract: 本发明涉及一种基于语言引导的机械臂动作元模仿学习方法及存储介质,元模仿学习方法包括:基于采样控制策略引导机械臂创建示教数据;构建语言提示函数,根据当前子目标输出提示语言,引导机械臂修正当前动作;使用深度神经网络构建机械臂控制网络,基于元模仿学习的学习范式,训练控制网络自主学习自然语言指令中的关键字语义信息和像素空间的对应关系,并在测试中能够通过人的语言提示来快速适应新的任务目标和应用场景,实现更精准的机械臂动作预测。与现有技术相比,本发明具有部署复杂度低、任务完成精度高等优点。
-
公开(公告)号:CN114170454B
公开(公告)日:2025-04-04
申请号:CN202111303088.0
申请日:2021-11-04
Applicant: 同济大学
IPC: G06V10/762 , G06V10/74 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/092
Abstract: 一种基于关节分组策略的智能体元动作学习方法,用于机器人自动控制,通过关节分组和元动作的时空融合来控制机器人快速学会新任务,从而避免了花费大量时间进行从头训练。提出了一个信息论目标来优化强化学习算法训练机器人,从而学会一系列多样的元动作策略;基于动态时间规整算法进行关节之间的轨迹相似性计算,进而基于层次聚类算法实现机器人关节的分组;根据关节组对应掩码得到不同关节组的元动作控制策略;构建层次结构的机器人总控制策略网络,通过线性组合各个关节组元动作策略的权重,实现在时间层面和空间层面上的元动作融合,从而能够快速学会新任务;同时,增强机器人动作的协调性和连贯性,在新任务上能够达到更好的表现。
-
公开(公告)号:CN115070753A
公开(公告)日:2022-09-20
申请号:CN202210469373.8
申请日:2022-04-28
Applicant: 同济大学
IPC: B25J9/16 , G06F17/16 , G06V10/774
Abstract: 本发明涉及一种基于无监督图像编辑的多目标强化学习方法,包括:获取关于机器人控制场景的多目标任务数据集;训练对抗生成网络和特征空间编码器,将图像中与任务高度相关与不相关的因素进行解耦;对每个子空间对应全连接层的权重进行奇异值分解,获得贡献最大的若干个特征向量作为有语义信息的可编辑方向,并训练可编辑方向编码器来识别出可编辑方向的类别和尺度;基于可编辑方向编码器的输出得到图像的可编辑表征空间,作为控制策略网络的输入以及奖励函数的计算,同时通过在可编辑表征空间中可控地采样出各种目标任务来训练机器人,最终得到可完成多个目标的控制策略。与现有技术相比,本发明具有能够无监督解耦开任务相关因素、提升样本效率和泛化性能等优点。
-
公开(公告)号:CN112975968B
公开(公告)日:2022-06-28
申请号:CN202110218017.4
申请日:2021-02-26
Applicant: 同济大学
IPC: B25J9/16
Abstract: 本发明涉及一种基于第三视角可变主体演示视频的机械臂模仿学习方法,包括:从演示视频中获取演示样本,并定义演示视频视角为第三视角;获取由观察图像序列组成的样本,并定义该图像视角为第一视角;对演示样本进行从第三视角到第一视角的转换;获取示范主体特征向量和对应姿态下机械臂的特征向量,并对其进行对齐操作;预测机械臂下一帧图像的特征向量;搭建机械臂逆动力学运动控制网络,将机械臂相邻帧的图像输入到控制网络中,输出机械臂的控制信号;重复执行上述步骤,直至机械臂完成演示视频中的所有动作。与现有技术相比,本发明具有在演示视频的示范主体为非机械臂的条件下,使机械臂能够实现模仿学习的优点。
-
公开(公告)号:CN112809689B
公开(公告)日:2022-06-14
申请号:CN202110217079.3
申请日:2021-02-26
Applicant: 同济大学
Abstract: 本发明涉及一种基于语言引导的机械臂动作元模仿学习方法及存储介质,元模仿学习方法包括:基于采样控制策略引导机械臂创建示教数据;构建语言提示函数,根据当前子目标输出提示语言,引导机械臂修正当前动作;使用深度神经网络构建机械臂控制网络,基于元模仿学习的学习范式,训练控制网络自主学习自然语言指令中的关键字语义信息和像素空间的对应关系,并在测试中能够通过人的语言提示来快速适应新的任务目标和应用场景,实现更精准的机械臂动作预测。与现有技术相比,本发明具有部署复杂度低、任务完成精度高等优点。
-
公开(公告)号:CN112975968A
公开(公告)日:2021-06-18
申请号:CN202110218017.4
申请日:2021-02-26
Applicant: 同济大学
IPC: B25J9/16
Abstract: 本发明涉及一种基于第三视角可变主体演示视频的机械臂模仿学习方法,包括:从演示视频中获取演示样本,并定义演示视频视角为第三视角;获取由观察图像序列组成的样本,并定义该图像视角为第一视角;对演示样本进行从第三视角到第一视角的转换;获取示范主体特征向量和对应姿态下机械臂的特征向量,并对其进行对齐操作;预测机械臂下一帧图像的特征向量;搭建机械臂逆动力学运动控制网络,将机械臂相邻帧的图像输入到控制网络中,输出机械臂的控制信号;重复执行上述步骤,直至机械臂完成演示视频中的所有动作。与现有技术相比,本发明具有在演示视频的示范主体为非机械臂的条件下,使机械臂能够实现模仿学习的优点。
-
-
-
-
-
-
-
-