-
公开(公告)号:CN118675126A
公开(公告)日:2024-09-20
申请号:CN202410489872.2
申请日:2024-04-23
Applicant: 东北大学 , 江苏曙光光电有限公司
Abstract: 本发明提供一种基于语义边界约束的注意力引导视觉场景识别方法,涉及计算机视觉技术领域,本发明通过获取输入图像,提取所述输入图像的局部描述子;根据所述局部描述子和输入图像,提取所述图像的全局描述子;计算所述全局描述子之间的相似度,在数据库中得到相似度最接近的多个图像;基于所述局部描述子对所述多个图像进行重排序,得到最接近输入图像的目标图像。本方法在统一框架内完成结构信息编码和外观不变描述子的提取。利用优化后的描述子计算图像之间的相似度,完成准确的视觉场景识别,提升了机器人在大尺度场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。
-
公开(公告)号:CN118351506A
公开(公告)日:2024-07-16
申请号:CN202410444962.X
申请日:2024-04-15
Applicant: 东北大学 , 江苏曙光光电有限公司
IPC: G06V20/56 , G06V10/44 , G06N3/0455 , G06N3/048 , G06F16/53 , G06F16/538 , G06F16/587 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉及机器人技术领域,公开了一种基于空间—通道编码与特征过滤的视觉场景识别方法。图像经数据增强后形成若干个图像三元组;图像三元组经统一的特征提取网络进行特征提取,得到图像的全局特征与局部特征;图像的全局特征经过SCE模块优化后用于全局检索得到初步的全局检索结果;图像的局部特征经过混合注意力层后经NCGM模块进而对全局检索结果进行重新排序得到最终的检索结果,实现视觉场景识别。本发明针对全局特征的空间—通道特征编码、局部特征的邻域一致性引导进行网络结构的设计及训练,利用重新排序后的图像检索结果完成准确的视觉场景识别。极大提升复杂环境下视觉场景识别准确性的同时降低了时间与内存消耗。
-
公开(公告)号:CN116524028A
公开(公告)日:2023-08-01
申请号:CN202310580112.8
申请日:2023-05-23
Applicant: 东北大学
IPC: G06T7/73 , G06T7/13 , G06V10/42 , G06V10/44 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/096
Abstract: 本发明提供一种基于结构感知与多任务蒸馏的长期视觉定位方法,涉及视觉定位技术领域。本发明首先利用边缘检测算法获取场景中鲁棒的结构信息,然后将结构信息以知识蒸馏的方式融入到视觉定位的网络模型中,同时网络主体采用多任务蒸馏的方法使用轻量级的模型学习局部特征与全局特征的提取,在保证精度的同时大幅缩短了分层定位的特征提取时间。该发明能够有效的应对长周期视觉定位过程中出现的视角,光线或季节变化等问题,以服务于无人驾驶和大规模视觉定位等应用场景。
-
公开(公告)号:CN118486026A
公开(公告)日:2024-08-13
申请号:CN202410465326.5
申请日:2024-04-18
Applicant: 东北大学 , 江苏曙光光电有限公司
IPC: G06V20/70 , G06V10/44 , G06V10/80 , G06V10/82 , G06F16/535 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/0455 , G06N3/0985
Abstract: 本发明属于场景识别技术领域,公开了一种基于多模态特征与图注意力机制的场景识别方法。首先采用双支路的特征提取模块分别捕获RGB特征和深度特征,之后设计基于Transformer的共享的特征融合模块来充分交互细节信息与结构信息构建鲁棒的多模态特征,并使用NetVLAD层池化获取全局场景描述子。考虑到图像序列间的上下文信息对场景识别有良好的判别作用,本发明还设计了基于时间约束的图注意力聚合模块来整合描述子的空间信息和时间信息实现对场景描述子的进一步精炼。该发明能够有效的解决场景识别任务中出现的视角,光线或季节变化等问题,以服务于无人驾驶和大规模视觉定位等应用场景。
-
公开(公告)号:CN116524028B
公开(公告)日:2025-05-13
申请号:CN202310580112.8
申请日:2023-05-23
Applicant: 东北大学
IPC: G06T7/73 , G06T7/13 , G06V10/42 , G06V10/44 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/096
Abstract: 本发明提供一种基于结构感知与多任务蒸馏的长期视觉定位方法,涉及视觉定位技术领域。本发明首先利用边缘检测算法获取场景中鲁棒的结构信息,然后将结构信息以知识蒸馏的方式融入到视觉定位的网络模型中,同时网络主体采用多任务蒸馏的方法使用轻量级的模型学习局部特征与全局特征的提取,在保证精度的同时大幅缩短了分层定位的特征提取时间。该发明能够有效的应对长周期视觉定位过程中出现的视角,光线或季节变化等问题,以服务于无人驾驶和大规模视觉定位等应用场景。
-
公开(公告)号:CN118464058A
公开(公告)日:2024-08-09
申请号:CN202410471810.9
申请日:2024-04-19
Applicant: 东北大学 , 江苏曙光光电有限公司
Abstract: 本发明属于激光雷达里程计技术领域,公开了一种基于连续时间与概率光斑的雷达里程计方法。通过激光点的曲率提取平面特征,畸变预去除,再进行光斑概率计算;通过光斑概率确定激光点的不确定性系数;当前帧的点云与雷达局部地图进行数据关联,将搜索到的局部地图中的点拟合平面;构建连续时间下激光点到平面的残差因子;联合当前帧残差因子与先验帧残差因子,构建非线性优化问题并边缘化先验帧约束进行控制点求解;优化收敛后,再次对当前帧点云去畸变,并加到局部地图,进行局部地图的维护。
-
公开(公告)号:CN118314305A
公开(公告)日:2024-07-09
申请号:CN202410424960.4
申请日:2024-04-10
Applicant: 东北大学
Abstract: 本发明提供了一种基于体素地图面元约束的跨模态视觉定位方法,涉及视觉定位及视觉SLAM领域,本方法通过离线优化雷达帧位姿,构建第一体素地图,体素地图至少包括面元信息。基于视觉里程计,计算图像帧位姿,得到视觉3D地图点,对视觉3D地图点和所述图像帧位姿使用重投影误差优化,得到初始位姿;根据当前图像帧位置,使用子地图索引和哈希表中的体素动态加载子地图;根据所述初始位姿,通过跨模态数据关联所述第一体素地图和所述视觉3D地图点,构建第一约束,实现视觉定位位姿优化。本发明通过跨模态视觉定位,抑制自动驾驶长距离行驶的累积漂移问题,实现了持续性的实时高精度定位,有助于后续开展导航规划等任务。
-
-
-
-
-
-