-
公开(公告)号:CN119693932A
公开(公告)日:2025-03-25
申请号:CN202411638180.6
申请日:2024-11-16
Applicant: 北京工业大学
IPC: G06V20/64 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于多模态数据融合与3D体素投影的目标检测方法,首先,从RGB图像和深度图像中提取并融合多模态特征;接着,采用特征金字塔网络对多尺度特征进行聚合,并利用真实深度信息将2D特征图精确地映射到3D体素空间中,形成3D体素体积;随后,通过体素特征编码网络提取局部3D特征,并进一步通过3D卷积神经网络提取全局特征。最终,将上述全局特征输入到检测头中,获取最终的目标检测结果。模型在大型公开数据集上进行训练,可以适应特征维度高、结构差异大、分布不均衡的数据,多模态特征的融合能够有效提升3D目标检测的准确度和鲁棒性,适用于物流分拣场景中的物体检测任务。