-
公开(公告)号:CN119526422A
公开(公告)日:2025-02-28
申请号:CN202411975168.4
申请日:2024-12-31
Applicant: 同济大学
IPC: B25J9/16
Abstract: 本发明涉及一种基于视触‑语言‑动作多模态模型的可变形物体交互操作控制方法,包括:针对可变形物体进行图像、触觉和语言数据编码,得到视觉、触觉和语言特征;将视觉特征、触觉特征和语言特征进行跨模态特征对齐处理,得到多模态融合特征;将多模态融合特征输入大模型中进行环境理解;采用“思考‑决策”的规划方式迭代进行动作规划与执行;重复执行上述步骤,直至完成当前可变形物体交互操作任务。与现有技术相比,本发明提升了多模态特征对齐能力、动作规划精度和任务适配性,能够实现机器人对可变形物体的高效识别与交互,尤其在复杂环境中能有效应对物体的变形与状态变化,能够动态调整操作策略,实现更加智能、精确的可变形物体操作。
-
公开(公告)号:CN119567267A
公开(公告)日:2025-03-07
申请号:CN202411977111.8
申请日:2024-12-31
Applicant: 同济大学
IPC: B25J9/16
Abstract: 本发明涉及一种大模型和小模型协同的机器人操作动作实时控制方法及系统。本发明中首先收集并预处理多模态数据;再多模态数据进行数据编码,得到特征向量;同时利用跨模态token对齐技术对齐多模态数据,得到特征表示;然后利用特征向量与特征表示对神经网络模型训练,得到训练后的大模型;对训练后的大模型进行剪枝、蒸馏和量化操作,生成小模型;再将小模型部署至边缘计算设备,边缘计算设备实时获取当前指令文本数据并对其推理,生成机器人的动作规划;最后利用机器人的动作规划和各传感器反馈信号,实时控制机器人操作动作。与现有技术相比,本发明具有低延迟、高效率、提升触觉感知、自适应抓取和实时动作规划能力等优点。
-