基于视觉大模型的非结构化场景下通行区域检测方法及装置

    公开(公告)号:CN118379499A

    公开(公告)日:2024-07-23

    申请号:CN202410583064.2

    申请日:2024-05-11

    Inventor: 梅继林 孙同 胡瑜

    Abstract: 本发明提出一种基于大型视觉模型ViT的仅使用RGB数据的非结构化场景下可通行区域检测的方法及装置,通过将图片输入预训练的ViT图像编码器提取丰富的语义特征以及隐层的特征,然后将特征输入到设计的分割解码器中,融合特征生成预测掩码,引入交叉熵损失函数更新解码器参数。本发明解决了在非结构化场景下对可通行区域检测如何达到实时性这一问题,相比与以往的非结构化场景下可通行区域检测的方法,本发明基于预训练ViT模型,只使用RGB数据,达到了更好的精度以及更快的速度。

Patent Agency Ranking