-
公开(公告)号:CN119772883A
公开(公告)日:2025-04-08
申请号:CN202411935594.5
申请日:2024-12-26
Applicant: 同济大学
IPC: B25J9/16 , G10L13/027 , G10L13/08 , G10L15/26 , G06V20/56 , G06V10/25 , G06V10/82 , G06V40/10 , G06T5/80 , G06T7/50 , G06T7/70 , G06N3/0464 , H01B11/00 , G01C21/00 , G01C21/20 , G01S17/89 , G01S17/93 , G01S17/06 , G01S7/48 , G01S7/481
Abstract: 本发明涉及一种室内移动服务机器人交互任务执行方法、装置及存储介质、室内移动服务机器人系统。该方法获取原始视觉数据和原始空间数据并分别进行处理,获取原始音频信号并转化为文本信号,得到动态交互输入指令;利用预设的大语言模型解析动态交互输入指令,得到待处理任务对应的元动作序列;根据元动作序列,按顺序执行待处理任务中的每个元动作,每个元动作在执行时调度对应的处理后的视觉数据和空间数据;当元动作的执行结果确认后,语音播报当前的任务执行状态,完成任务交互。与现有技术相比,本发明具有处理任务复杂广泛,动态适应性强,交互自然,室内服务场景的任务执行成功率高等优点。
-
公开(公告)号:CN119860761A
公开(公告)日:2025-04-22
申请号:CN202411935596.4
申请日:2024-12-26
Applicant: 同济大学
IPC: G01C21/00 , G06N3/006 , G06N3/045 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084 , G06N5/046 , G06F18/22
Abstract: 本发明涉及一种导航语言指令自动生成与评价方法、装置及存储介质。获取离线轨迹‑指令对数据集,利用基于多模态对比学习损失的第一损失函数训练语言指令生成模型,得到最优语言指令生成模型,并利用多模态对比学习损失函数训练指令评分模型,得到最优指令评分模型;随机采样多条导航路径,输入最优语言指令生成模型,得到生成的轨迹‑指令对数据集;将生成的数据集输入最优指令评分模型,得到每个轨迹‑指令对的相似度分数并计算数据集整体评价指标,最终筛选出符合第一预设条件和第二预设条件的轨迹‑指令对数据集。与现有技术相比,本发明具有显著提升指令生成的质量、避免语言指令的过拟合问题等优点。
-
公开(公告)号:CN112163414B
公开(公告)日:2022-09-20
申请号:CN202010880446.3
申请日:2020-08-27
Applicant: 同济大学
IPC: G06F40/211 , G06F40/289 , G06F40/30 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法,包括以下步骤:1)获取关键词进行预处理;2)输入关键词,基于LSTM和注意力机制的歌词生成模型结合后处理操作,依次生成句中词和结尾词,完成一句歌词的生成;3)重复执行步骤1)‑步骤2),直至生成一篇完整的歌词。与现有技术相比,本发明具有生成歌词可读性强、语义通顺、对仗工整等优点。
-
公开(公告)号:CN112163414A
公开(公告)日:2021-01-01
申请号:CN202010880446.3
申请日:2020-08-27
Applicant: 同济大学
IPC: G06F40/211 , G06F40/289 , G06F40/30 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法,包括以下步骤:1)获取关键词进行预处理;2)输入关键词,基于LSTM和注意力机制的歌词生成模型结合后处理操作,依次生成句中词和结尾词,完成一句歌词的生成;3)重复执行步骤1)‑步骤2),直至生成一篇完整的歌词。与现有技术相比,本发明具有生成歌词可读性强、语义通顺、对仗工整等优点。
-
公开(公告)号:CN114812551B
公开(公告)日:2024-07-26
申请号:CN202210224196.7
申请日:2022-03-09
Applicant: 同济大学
IPC: G01C21/20 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06N5/04
Abstract: 本发明涉及一种室内环境机器人导航自然语言指令生成方法,包括以下步骤:S1、提取机器人摄像头采集到的全景图像的图像特征向量;S2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接,形成对应的动作特征向量和全景图像特征向量;S3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算;S4、采用Transformer框架编码机器人的视觉和动作信息,输出预测的语言结果;S5、在解码器的输出部分添加额外的辅助监督任务,辅助机器人学习输出句子与输入动作的对应关系。与现有技术相比,本发明具有提升特征信息的利用程度、提升生成模型的精确度和泛化能力等优点。
-
公开(公告)号:CN116522899A
公开(公告)日:2023-08-01
申请号:CN202310411770.4
申请日:2023-04-17
Applicant: 同济大学
IPC: G06F40/205 , G06F18/22 , G06F18/214 , G06F18/25 , G06N3/0442 , G06N3/0895
Abstract: 本发明涉及一种基于半监督学习的自然语言轨迹指令生成方法、装置及存储介质,其中方法包括:构建轨迹‑指令生成器和轨迹‑指令匹配器;采集候选导航点,生成有限条轨迹并标注自然语言指令,形成有标签数据集,并随机生成轨迹路线以形成无标签数据集;利用有标签数据集分别训练轨迹‑指令生成器和轨迹‑指令匹配器;基于无标签数据集,利用轨迹‑指令生成器生成对应的伪标签,使用轨迹‑指令匹配器过滤质量低的伪标签;将过滤后的伪标签数据集与有标签数据集合并,精炼轨迹‑指令生成器;重复上述步骤,直到轨迹‑指令匹配器判断无低质量伪标签,或达到重复轮数上限。与现有技术相比,本发明具有准确性高、泛化性强、标注与应用方便等优点。
-
公开(公告)号:CN116429111A
公开(公告)日:2023-07-14
申请号:CN202310305933.0
申请日:2023-03-24
Applicant: 同济大学
IPC: G01C21/20 , G06V10/82 , G06F40/30 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及一种基于双重语义理解与融合的视觉语言导航方法,包括以下步骤:获取引导性指令和视觉观察图像;分别提取视觉观察图像的图像特征和图像中的物品特征;基于自然语言编码网络提取引导性指令长文本特征,并基于专家经验规则提取引导性关键词文本特征;获取基于物品级别的图像增强特征与基于引导性关键词的文本增强特征,得到双重语义增强后的视觉和语言特征,并将输入到视觉‑语言交叉融合模块以获取跨模态融合特征;基于跨模态融合特征,使用动作预测子网络模块输出导航位置预测结果,控制机器人向预测的导航位置方向前进,并更新对应的视觉观察图像。与现有技术相比,本发明具有动作预测准确性高、可解释性强等优点。
-
公开(公告)号:CN114812551A
公开(公告)日:2022-07-29
申请号:CN202210224196.7
申请日:2022-03-09
Applicant: 同济大学
Abstract: 本发明涉及一种室内环境机器人导航自然语言指令生成方法,包括以下步骤:S1、提取机器人摄像头采集到的全景图像的图像特征向量;S2、获取机器人当前的偏移角度并通过三角变换扩充数据维度后与图像特征向量进行拼接,形成对应的动作特征向量和全景图像特征向量;S3、采用多头注意力对动作特征向量和全景图像特征向量进行对齐和降维计算;S4、采用Transformer框架编码机器人的视觉和动作信息,输出预测的语言结果;S5、在解码器的输出部分添加额外的辅助监督任务,辅助机器人学习输出句子与输入动作的对应关系。与现有技术相比,本发明具有提升特征信息的利用程度、提升生成模型的精确度和泛化能力等优点。
-
-
-
-
-
-
-