-
公开(公告)号:CN117876845A
公开(公告)日:2024-04-12
申请号:CN202410057263.X
申请日:2024-01-15
Applicant: 华中科技大学
IPC: G06V10/82 , G06V10/764 , G06N3/0455 , G06N3/082 , G06N3/048 , G06N3/0499 , G06V10/26
Abstract: 本发明公开了一种基于双向状态空间模型的视觉表征方法——Vision Mamba(Vim)。Vim模型首先将输入图像分割为一系列图像块,并将其线性投影为向量序列输入至Vim模块中进行高效序列建模。该方法首次将状态空间模型Mamba应用于计算机视觉领域,并引入双向的状态空间建模方法来优化模型在处理视觉数据时缺乏全局视觉的问题,同时利用位置嵌入提供空间信息的位置感知能力,使模型在诸如语义分割、目标检测和实例分割等密集预测任务中表现更稳健。此外,得益于Mamba算法的高效设计,Vim具有次二次时间复杂度计算特性及线性内存复杂度,相较于基于Transformer结构的视觉模型有着明显的效率优势。本发明还提供了相应的基于双向状态空间模型的视觉表征装置。