基于多模态感知Mamba的无人机视觉语言导航方法

    公开(公告)号:CN119063736A

    公开(公告)日:2024-12-03

    申请号:CN202411248358.6

    申请日:2024-09-06

    Abstract: 本发明公开了一种多模态感知Mamba的无人机视觉语言导航方法,包括:对文本指令信息建模,提取文本语义特征,使代理能够理解指令上下文内容;对无人机代理捕获的视觉图像以及位置方向进行建模,提取视觉语义和方向语义特征,使其能够感知环境信息;对导航的历史轨迹进行建模,提取历史轨迹特征,使无人机代理能够从历史信息中挖掘关键知识;基于Mamba模型将文本、视觉以及方向三个不同模态的信息融合学习,推理导航动作;将上述所有部分整合到一个统一的框架,进行模型的整体训练。本发明使得模型能够捕获不同模态关键的导航线索,促进多模态融合,提高导航效果。

Patent Agency Ranking