-
公开(公告)号:CN115906831A
公开(公告)日:2023-04-04
申请号:CN202211342144.6
申请日:2022-10-31
Applicant: 复旦大学
IPC: G06F40/289 , G06F40/216 , G06N20/00
Abstract: 本发明公开了一种基于距离感知的Transformer的视觉语言导航算法,属于视觉语言跨模态技术领域。所述算法通过以下方式实现:首先对智能体可感知区域的视觉信息、指令信息、记忆结构进行初始化,然后通过提供基于图数据结构的场景记忆更新模块以及结合语言视觉多模态预训练模型进而融合导航过程中的探索信息,加强智能体对环境的感知能力;通过提供基于距离的进度监视器压缩导航过程中每步决策的动作空间,降低运算资源、加快模型训练;通过提供基于动态距离融合模块,将距离信息融入动作决策中,使得算法在进行全局探索的同时兼顾探索路径长度,提升导航任务的效率。本发明提出的基于距离感知的Transformer的视觉语言导航算法在保证具有较好导航成功率的同时明显提升了基于场景记忆算法的探索效率。