面向协同端到端大模型的自动驾驶轨迹决策方法及装置

    公开(公告)号:CN118025228A

    公开(公告)日:2024-05-14

    申请号:CN202410215363.0

    申请日:2024-02-27

    Abstract: 本申请提供面向协同端到端大模型的自动驾驶轨迹决策方法及装置,其中的方法包括:利用第一特征提取网络对自车端的RGB图像、他车端的RGB图像和路端的RGB图像进行处理,得到第一图像特征、第二图像特征和第三图像特征;对第一图像特征、第二图像特征和第三图像特征进行融合处理得到图像融合特征;利用第二特征提取网络对路端的点云数据进行处理得到路端点云特征;对图像融合特征和路端点云特征进行处理得到第一BEV特征和第二BEV特征;对第一BEV特征和第二BEV特征进行融合得到融合BEV特征;用大视觉语言模型将prompt信息和融合BEV特征进行融合得到文本信息;利用自然语言大模型对文本信息进行处理得到自车轨迹决策结果。本申请提高了轨迹决策的准确性。

    面向协同端到端大模型的自动驾驶轨迹决策方法及装置

    公开(公告)号:CN118025228B

    公开(公告)日:2024-09-17

    申请号:CN202410215363.0

    申请日:2024-02-27

    Abstract: 本申请提供面向协同端到端大模型的自动驾驶轨迹决策方法及装置,其中的方法包括:利用第一特征提取网络对自车端的RGB图像、他车端的RGB图像和路端的RGB图像进行处理,得到第一图像特征、第二图像特征和第三图像特征;对第一图像特征、第二图像特征和第三图像特征进行融合处理得到图像融合特征;利用第二特征提取网络对路端的点云数据进行处理得到路端点云特征;对图像融合特征和路端点云特征进行处理得到第一BEV特征和第二BEV特征;对第一BEV特征和第二BEV特征进行融合得到融合BEV特征;用大视觉语言模型将prompt信息和融合BEV特征进行融合得到文本信息;利用自然语言大模型对文本信息进行处理得到自车轨迹决策结果。本申请提高了轨迹决策的准确性。

    基于大语言模型的自动驾驶多模态感知决策方法及装置

    公开(公告)号:CN118115969B

    公开(公告)日:2024-09-13

    申请号:CN202410243702.6

    申请日:2024-03-04

    Abstract: 本申请提供基于大语言模型的自动驾驶多模态感知决策方法及装置,感知决策方法包括:获取当前时刻的目标区域的RGB图像和红外图像;利用目标检测模型对RGB图像进行处理,得到目标框以及对应的目标检测类别;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理得到目标掩码图像;利用融合模型对RGB图像、目标掩码图像和红外图像进行融合得到融合特征图;利用大视觉语言模型对表征用户意图的第一prompt信息、表征目标检测类别优先级的第二prompt信息以及融合特征图进行融合处理得到文本信息;利用自然语言大模型对文本信息进行处理得到感知决策结果。本申请提高了交通参与者在自动驾驶车辆感知决策的优先级,提升了自动驾驶车辆的安全性。

    一种面向自动驾驶的大视觉语言模型增量学习方法及装置

    公开(公告)号:CN118015411B

    公开(公告)日:2024-07-23

    申请号:CN202410215362.6

    申请日:2024-02-27

    Abstract: 本申请提供一种面向自动驾驶的大视觉语言模型增量学习方法及装置,增量学习方法包括:对第一训练样本集进行扩充,得到第二训练样本集;所述第二训练样本集包括多个标注道路场景目标的图像样本;将多个微调子网络分别插入第一大视觉语言模型的指定位置,生成第二大视觉语言模型;利用所述第二大视觉语言模型对第二训练样本集的图像样本进行处理,得到目标预测结果;利用所述目标预测结果和目标标注结果,计算损失值;保持所述第一大视觉语言模型的参数不变,利用所述损失值更新所述微调子网络的参数。本申请的方法在保证原模型参数不变的前提下,节省训练和储存参数成本,用少量样本实现了大模型的高效的微调。

    基于大语言模型的自动驾驶多模态感知决策方法及装置

    公开(公告)号:CN118115969A

    公开(公告)日:2024-05-31

    申请号:CN202410243702.6

    申请日:2024-03-04

    Abstract: 本申请提供基于大语言模型的自动驾驶多模态感知决策方法及装置,感知决策方法包括:获取当前时刻的目标区域的RGB图像和红外图像;利用目标检测模型对RGB图像进行处理,得到目标框以及对应的目标检测类别;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理得到目标掩码图像;利用融合模型对RGB图像、目标掩码图像和红外图像进行融合得到融合特征图;利用大视觉语言模型对表征用户意图的第一prompt信息、表征目标检测类别优先级的第二prompt信息以及融合特征图进行融合处理得到文本信息;利用自然语言大模型对文本信息进行处理得到感知决策结果。本申请提高了交通参与者在自动驾驶车辆感知决策的优先级,提升了自动驾驶车辆的安全性。

    一种面向自动驾驶的大视觉语言模型增量学习方法及装置

    公开(公告)号:CN118015411A

    公开(公告)日:2024-05-10

    申请号:CN202410215362.6

    申请日:2024-02-27

    Abstract: 本申请提供一种面向自动驾驶的大视觉语言模型增量学习方法及装置,增量学习方法包括:对第一训练样本集进行扩充,得到第二训练样本集;所述第二训练样本集包括多个标注道路场景目标的图像样本;将多个微调子网络分别插入第一大视觉语言模型的指定位置,生成第二大视觉语言模型;利用所述第二大视觉语言模型对第二训练样本集的图像样本进行处理,得到目标预测结果;利用所述目标预测结果和目标标注结果,计算损失值;保持所述第一大视觉语言模型的参数不变,利用所述损失值更新所述微调子网络的参数。本申请的方法在保证原模型参数不变的前提下,节省训练和储存参数成本,用少量样本实现了大模型的高效的微调。

Patent Agency Ranking