一种文本知识增强的场景图生成方法

    公开(公告)号:CN119417947A

    公开(公告)日:2025-02-11

    申请号:CN202411459419.3

    申请日:2024-10-18

    Abstract: 本发明涉及一种文本知识增强的场景图生成方法,属于计算视觉领域。该方法包括:提取文本信息的文本特征;提取场景图像的视觉特征和实体标签,并将提取的视觉特征组合为成对的实体对特征;引入实体对特征引导生成视觉引导的文本特征表示,使提取的文本特征与视觉实体相关联;基于视觉特征和实体标签得到精细化的实体增强特征以及实体对视觉谓词特征;将视觉引导的文本特征与实体对视觉谓词特征进行跨模态对齐,得到图形化的多模态特征表示;将多模态特征表示和实体增强特征输入多层感知机中进行预测,得到实体对和实体对关系的预测输出。本发明可提升场景图生成过程中对实体对象预测和实体关系预测的准确性。

Patent Agency Ranking