一种视觉语言混合模态特征的提取与融合方法

    公开(公告)号:CN118378211A

    公开(公告)日:2024-07-23

    申请号:CN202410488975.7

    申请日:2024-04-23

    Applicant: 东南大学

    Abstract: 本申请公开了一种视觉语言混合模态特征的提取与融合方法,首先对于视觉信息处理,将图像的观测位姿信息向量化,与视觉特征向量拼接,得到融合位姿信息的视觉特征向量,对于自然语言处理,采用词元信息和位置信息提取后加和,得到语言特征向量,然后输入视觉、语言特征向量,最后通过构建视觉特征向量为键和值,语言特征向量为查询的模态注意力交叉机制混合提取融合,实现视觉语言信息的混合模态特征向量生成,该方法在视觉语言导航任务中表现出对跨模态对象较强的特征提取和理解能力,具有泛化能力高的特点。

    一种SLAM系统的关键帧选取方法

    公开(公告)号:CN112258546A

    公开(公告)日:2021-01-22

    申请号:CN202011113868.4

    申请日:2020-10-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种SLAM系统的关键帧选取方法,该方法包括:在当前帧的点云中随机选择几个特征点设定为内群并计算适合内群的模型,根据重复选择特征点的次数判断是否淘汰该帧;根据位姿估计得到的旋转向量r和平移向量t求得帧间相对运动距离D,根据D值判断是否淘汰该帧;计算当前帧与上一帧之间匹配的特征点数量,根据阈值范围判断是否淘汰该帧;计算当前帧与上一关键帧之间匹配的特征点数量,若满足阈值范围且上述条件均满足则视作关键帧。本发明提出的方法能确保帧间运动距离在合理范围,提高特征点匹配度和建图一致性。相对于原有算法具备了检测并删除冗余关键帧的能力,降低了SLAM系统的存储冗余,对于地图更新和维护具有重要意义。

Patent Agency Ranking