一种基于自适应位置编码和并行解码的3D视觉定位方法及系统

    公开(公告)号:CN119399443A

    公开(公告)日:2025-02-07

    申请号:CN202411537179.4

    申请日:2024-10-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于自适应位置编码和并行解码的3D视觉定位方法及系统,其中方法包括:使用文本编码器处理输入的自然语言文本,得到文本令牌和特征;使用视觉编码器处理3D点云输入,得到种子点和特征;采用交叉编码器对视觉和文本特征进行互调,更新文本特征和视觉特征;预测种子点的置信度分数并排序,选出分数最高的候选点作为查询;根据自然语言描述的语义将文本令牌分为目标物体属性令牌和周围空间环境令牌;使用双分支并行解码器,生成新的查询特征,并由框预测头生成粗预测框;将生成的查询特征投影到位置特征和对象语义特征中,用于计算损失并训练网络;使用查询特征的投影结果为粗预测框评分,取分数最高者为视觉定位结果。

Patent Agency Ranking