基于视觉语言大模型的自动驾驶规划方法及相关设备

    公开(公告)号:CN119514716A

    公开(公告)日:2025-02-25

    申请号:CN202411318441.6

    申请日:2024-09-20

    Abstract: 一种基于视觉语言大模型的自动驾驶规划方法及相关设备,涉及人工智能技术领域。其中方法包括:获取驾驶场景信息;将所述驾驶场景信息输入至视觉语言大模型,获取所述视觉语言大模型输出的自动驾驶规划参数,其中,所述视觉语言大模型是通过样本驾驶场景信息和思维链微调得到,所述思维链用于辅助所述视觉语言大模型对所述样本驾驶场景信息进行多阶段推理分析。实施本发明提供的技术方案,通过多阶段推理提高了模型输出的可靠性,增强了自动驾驶系统的安全性。

    一种自动驾驶场景的3D密集标注、电子设备以及存储介质

    公开(公告)号:CN119206705B

    公开(公告)日:2025-03-14

    申请号:CN202411291159.3

    申请日:2024-09-14

    Abstract: 本发明提供了一种自动驾驶场景的3D密集标注方法,可以应用于大数据以及人工智能技术领域。该方法包括:基于多视角图像和雷达点云数据提取鸟瞰图特征;通过检测头识别并定位场景内的3D物体,确保对物体特征的准确捕捉;采用Relation Q‑former技术交互BEV特征和3D物体特征,以获取各物体与场景上下文的深入关系,从而增强对场景的全面理解;基于适配器技术,避免对现有大模型的重新训练,将上述得到的特征转换为语言模型的提示词prompt输入,生成3D物体描述。训练结束后,3D密集标注模型能够根据给定的场景图片自动进行3D物体定位与描述。本发明通过结合多源数据融合、上下文关系分析和适配器技术,显著提升了自动驾驶室外场景下3D物体标注的效率和准确性。

    一种自动驾驶场景的3D密集标注、电子设备以及存储介质

    公开(公告)号:CN119206705A

    公开(公告)日:2024-12-27

    申请号:CN202411291159.3

    申请日:2024-09-14

    Abstract: 本发明提供了一种自动驾驶场景的3D密集标注方法,可以应用于大数据以及人工智能技术领域。该方法包括:基于多视角图像和雷达点云数据提取鸟瞰图特征;通过检测头识别并定位场景内的3D物体,确保对物体特征的准确捕捉;采用Relation Q‑former技术交互BEV特征和3D物体特征,以获取各物体与场景上下文的深入关系,从而增强对场景的全面理解;基于适配器技术,避免对现有大模型的重新训练,将上述得到的特征转换为语言模型的提示词prompt输入,生成3D物体描述。训练结束后,3D密集标注模型能够根据给定的场景图片自动进行3D物体定位与描述。本发明通过结合多源数据融合、上下文关系分析和适配器技术,显著提升了自动驾驶室外场景下3D物体标注的效率和准确性。

Patent Agency Ranking