一种基于大语言模型和深度学习的多模式软体手抓取方法及系统

    公开(公告)号:CN118811189A

    公开(公告)日:2024-10-22

    申请号:CN202411111718.8

    申请日:2024-08-14

    Abstract: 本发明公开了一种基于大语言模型和深度学习的多模式软体手抓取方法及系统,方法包括:S1,利用深度相机拍摄RGB图片与深度图片;S2,将RGB图片作为输入,使用Yolo模型识别并分割图片中的物体,输出物体名称与其在图中的二维坐标;S3,将S2的输出与指令作为输入,使用GPT4判断应当抓取的物体名称,输出对应的二维坐标;S4,利用获得的二维坐标分割RGB图像与深度图像,获得待抓取对象的分割图;S5,提取RGB图像中物体二维形状特征与深度图像中深度特征,通过SVM分类模型判断物体形状;S6,将判断出的形状与抓取方式建立对应关系,最终得到抓取方式。本发明能够实现高准确率的实时物体识别和操作决策。

Patent Agency Ranking