结合视觉和语言指令引导的机器人抓取方法、装置

    公开(公告)号:CN118721192A

    公开(公告)日:2024-10-01

    申请号:CN202410842147.9

    申请日:2024-06-27

    Abstract: 本申请公开了一种结合视觉和语言指令引导的机器人抓取方法及装置,属于机器人抓取领域,该方法包括:获取目标场景的RGB图像以及对应的视觉特征,获取目标对象输入的语言指令以及语言指令对应的文本特征;在目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下,基于SAM模型得到待抓取对象的掩码,其中,目标指令为预先设置的自然语言指令;融合RGB图像的视觉特征与掩码的视觉特征得到融合视觉特征,对齐融合视觉特征与文本特征得到对齐结果;基于对齐结果生成抓取信息,控制机器人按照抓取信息执行抓取操作,其中,抓取信息包括抓取点、抓取角度、抓取宽度。本申请采用SAM模型生成精确掩码,并对掩码进行特征提取,结合视觉与语言指令对机器人的抓取操作进行引导,提高了机器人抓取操作的抓取精度及通用性。

Patent Agency Ranking