-
公开(公告)号:CN119048767A
公开(公告)日:2024-11-29
申请号:CN202411248639.1
申请日:2024-09-06
Applicant: 中国科学院自动化研究所
IPC: G06V10/40 , G01C21/20 , G01C21/00 , G06F18/213 , G06F18/25 , G06V10/42 , G06V10/56 , G06V10/74 , G06V10/44 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08 , G06V20/56
Abstract: 本发明公开了一种基于测试时自适应提示信息的视觉语言导航方法,包括:获取基于自然语言的导航指令和智能体的360度全景视觉观测信息;提取子图像的低频视觉特征并从图像记忆库中选择有价值的信息进行提示;提取导航指令对应的文本特征向量和当前环境的初始状态向量;利用状态向量从视觉特征记忆库中选择历史信息进行提示;将状态向量和指令特征输入视觉‑语言交互模块,生成导航动作选择;根据导航动作选择的预测分数更新全连接层中的归一化层;重复上述内容直至智能体选择停止或达到最大移动步数限制。本发明可以有效增强预训练智能体模型在未知测试环境中的导航性能。