一种基于文本引导的端到端3D物体定位方法

    公开(公告)号:CN117909920A

    公开(公告)日:2024-04-19

    申请号:CN202410095613.1

    申请日:2024-01-24

    Applicant: 福州大学

    Inventor: 柯逍 张孝勇

    Abstract: 本发明涉及一种基于文本引导的端到端3D物体定位方法,获取3D视觉定位数据集,将预处理和数据增强后的文本和点云两个模态的数据分别输入到两个单独的主干网络中;利用以文本引导的场景编码器增强点云场景的视觉特征生成文本自适应的权重,指导场景编码器生成与文本匹配的采样点特征,再根据霍夫投票利用采样点生成投票点并计算与场景融合的文本分类损失;利用投票点生成物体投票查询并利用文本特征强化其物体感知能力,再使用多模态定位解码器融合点云和文本的特征,利用定位头将物体查询转换成物体边界框并计算投票查询损失和物体目标检测损失;按照指定训练参数进行迭代训练,根据验证准确率不断保存最优模型,利用最终模型得到物体定位结果。

Patent Agency Ranking