一种导航语言指令自动生成与评价方法、装置及存储介质

    公开(公告)号:CN119860761A

    公开(公告)日:2025-04-22

    申请号:CN202411935596.4

    申请日:2024-12-26

    Applicant: 同济大学

    Abstract: 本发明涉及一种导航语言指令自动生成与评价方法、装置及存储介质。获取离线轨迹‑指令对数据集,利用基于多模态对比学习损失的第一损失函数训练语言指令生成模型,得到最优语言指令生成模型,并利用多模态对比学习损失函数训练指令评分模型,得到最优指令评分模型;随机采样多条导航路径,输入最优语言指令生成模型,得到生成的轨迹‑指令对数据集;将生成的数据集输入最优指令评分模型,得到每个轨迹‑指令对的相似度分数并计算数据集整体评价指标,最终筛选出符合第一预设条件和第二预设条件的轨迹‑指令对数据集。与现有技术相比,本发明具有显著提升指令生成的质量、避免语言指令的过拟合问题等优点。

    一种室内环境机器人导航自然语言指令生成方法

    公开(公告)号:CN114812551B

    公开(公告)日:2024-07-26

    申请号:CN202210224196.7

    申请日:2022-03-09

    Applicant: 同济大学

    Abstract: 本发明涉及一种室内环境机器人导航自然语言指令生成方法,包括以下步骤:S1、提取机器人摄像头采集到的全景图像的图像特征向量;S2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接,形成对应的动作特征向量和全景图像特征向量;S3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算;S4、采用Transformer框架编码机器人的视觉和动作信息,输出预测的语言结果;S5、在解码器的输出部分添加额外的辅助监督任务,辅助机器人学习输出句子与输入动作的对应关系。与现有技术相比,本发明具有提升特征信息的利用程度、提升生成模型的精确度和泛化能力等优点。

    一种自然语言轨迹指令生成方法、装置及存储介质

    公开(公告)号:CN116522899A

    公开(公告)日:2023-08-01

    申请号:CN202310411770.4

    申请日:2023-04-17

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于半监督学习的自然语言轨迹指令生成方法、装置及存储介质,其中方法包括:构建轨迹‑指令生成器和轨迹‑指令匹配器;采集候选导航点,生成有限条轨迹并标注自然语言指令,形成有标签数据集,并随机生成轨迹路线以形成无标签数据集;利用有标签数据集分别训练轨迹‑指令生成器和轨迹‑指令匹配器;基于无标签数据集,利用轨迹‑指令生成器生成对应的伪标签,使用轨迹‑指令匹配器过滤质量低的伪标签;将过滤后的伪标签数据集与有标签数据集合并,精炼轨迹‑指令生成器;重复上述步骤,直到轨迹‑指令匹配器判断无低质量伪标签,或达到重复轮数上限。与现有技术相比,本发明具有准确性高、泛化性强、标注与应用方便等优点。

    一种基于双重语义理解与融合的视觉语言导航方法

    公开(公告)号:CN116429111A

    公开(公告)日:2023-07-14

    申请号:CN202310305933.0

    申请日:2023-03-24

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于双重语义理解与融合的视觉语言导航方法,包括以下步骤:获取引导性指令和视觉观察图像;分别提取视觉观察图像的图像特征和图像中的物品特征;基于自然语言编码网络提取引导性指令长文本特征,并基于专家经验规则提取引导性关键词文本特征;获取基于物品级别的图像增强特征与基于引导性关键词的文本增强特征,得到双重语义增强后的视觉和语言特征,并将输入到视觉‑语言交叉融合模块以获取跨模态融合特征;基于跨模态融合特征,使用动作预测子网络模块输出导航位置预测结果,控制机器人向预测的导航位置方向前进,并更新对应的视觉观察图像。与现有技术相比,本发明具有动作预测准确性高、可解释性强等优点。

    一种室内环境机器人导航自然语言指令生成方法

    公开(公告)号:CN114812551A

    公开(公告)日:2022-07-29

    申请号:CN202210224196.7

    申请日:2022-03-09

    Applicant: 同济大学

    Abstract: 本发明涉及一种室内环境机器人导航自然语言指令生成方法,包括以下步骤:S1、提取机器人摄像头采集到的全景图像的图像特征向量;S2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接,形成对应的动作特征向量和全景图像特征向量;S3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算;S4、采用Transformer框架编码机器人的视觉和动作信息,输出预测的语言结果;S5、在解码器的输出部分添加额外的辅助监督任务,辅助机器人学习输出句子与输入动作的对应关系。与现有技术相比,本发明具有提升特征信息的利用程度、提升生成模型的精确度和泛化能力等优点。

Patent Agency Ranking