-
公开(公告)号:CN119322986A
公开(公告)日:2025-01-17
申请号:CN202411866804.X
申请日:2024-12-18
Applicant: 先进计算与关键软件(信创)海河实验室
IPC: G06F18/2431 , G06F40/35 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06V10/25 , G06V10/40 , G06F18/241 , G06F18/25
Abstract: 本发明涉及人工智能技术领域,具体公开了一种基于深度信息融合的视觉空间描述方法、系统及产品,方法包括:获取图像及其对应的物体文本;对所述图像进行视觉‑平面位置特征提取,得到视觉特征和平面位置特征,对所述图像进行深度特征提取,得到深度特征;对所述物体文本进行文本编码,得到文本特征;将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合,得到融合特征;对所述融合特征进行空间关系分类,得到空间关系;将指令语、所述空间关系和物体文本输入大语言模型,得到描述物体空间关系的自然语句。本发明能够准确描述图像中物体间的空间关系,提升人工智能的空间感知能力,同时避免增加多余的人工标注工作量。