-
公开(公告)号:CN118229782A
公开(公告)日:2024-06-21
申请号:CN202410325018.2
申请日:2024-03-21
Applicant: 西安电子科技大学
Abstract: 本发明涉及人工智能与计算机视觉领域,提供了一种基于自然语言指令的三维点云场景目标定位方法,包括:筛选出包含三维视觉场景中物体类别的关系三元组;确定物体类别的层级属性,构建层次化知识图谱;对给定的自然语言描述进行解析,获得多个两阶语义三元组;对两阶语义三元组中的物体增加层级属性,获得层次化两阶语义三元组;确定待识别三维点云场景中物体的初始视觉特征;输出物体的预测得分;从高到低筛选出多个预测得分对应的物体,作为候选物体;输出候选物体与第一高阶语义三元组的匹配得分;确定待识别三维点云场景中的目标物体。本发明提高了预测精度,且具有更强的鲁棒性。
-
公开(公告)号:CN116630976A
公开(公告)日:2023-08-22
申请号:CN202310579832.2
申请日:2023-05-22
Applicant: 西安电子科技大学
IPC: G06V20/70 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多模态空间层次知识的三维语义场景图预测方法,包括:S1:基于空间层次结构的符号知识图谱构建;S2:符号知识引导策略下的视觉上下文编码;S3:基于文本符号知识与视觉上下文特征的多模态知识提取;S4:多模态知识引导的物体与关系检测。通过设计图推理网络,在符号知识图谱中融合来自文本模态的符号知识与来自视觉模态的场景视觉上下文特征,实现多模态空间层次知识的提取与学习,并利用视觉场景中物体类别作为索引,提取对应的多模态知识特征,实现多模态知识增强的物体与关系检测,并通过引入表达能力更强的多模态知识提升了算法性能与效率,使得本发明三维场景图预测方法具有高精准、高效率、强鲁棒性等优点。
-