-
公开(公告)号:CN118570370A
公开(公告)日:2024-08-30
申请号:CN202410602042.6
申请日:2024-05-15
Applicant: 重庆邮电大学
IPC: G06T17/00 , G06V10/25 , G06V10/26 , G06V20/70 , G06V10/56 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明涉及一种局部实体关系编码的场景图生成方法,属于计算机视觉领域。该方法包括:构建场景图生成任务;对给定图像进行特征提取,包括RGB特征提取和深度特征提取;并通过目标检测器得到给定图像的实体关系建议;结合实体关系建议将RGB特征和深度特征进行跨模态融合,得到融合特征信息;将融合特征信息作为局部实体关系编码器的附加输入标记以进行谓词关系预测。本发明通过关注局部实体特征来学习更丰富的实体表示以及谓词表示,从而实现对局部交互信息的获取和补全,同时减少模型参数,提升运行效率。
-
公开(公告)号:CN119417947A
公开(公告)日:2025-02-11
申请号:CN202411459419.3
申请日:2024-10-18
Applicant: 重庆邮电大学
IPC: G06T11/60 , G06F18/22 , G06F18/25 , G06F40/30 , G06F40/295 , G06V20/40 , G06N3/0464 , G06N3/0455
Abstract: 本发明涉及一种文本知识增强的场景图生成方法,属于计算视觉领域。该方法包括:提取文本信息的文本特征;提取场景图像的视觉特征和实体标签,并将提取的视觉特征组合为成对的实体对特征;引入实体对特征引导生成视觉引导的文本特征表示,使提取的文本特征与视觉实体相关联;基于视觉特征和实体标签得到精细化的实体增强特征以及实体对视觉谓词特征;将视觉引导的文本特征与实体对视觉谓词特征进行跨模态对齐,得到图形化的多模态特征表示;将多模态特征表示和实体增强特征输入多层感知机中进行预测,得到实体对和实体对关系的预测输出。本发明可提升场景图生成过程中对实体对象预测和实体关系预测的准确性。
-