基于视觉特征与文本特征多层次交互的图像描述生成方法及装置

    公开(公告)号:CN119741582A

    公开(公告)日:2025-04-01

    申请号:CN202411544206.0

    申请日:2024-10-31

    Inventor: 文益民 李永杰

    Abstract: 本发明公开一种基于视觉特征与文本特征多层次交互的图像描述生成方法及装置,该方法步骤包括:获取待描述图像,分别提取出图像的区域特征以及网格特征,输入至基于Transformer架构的特征增强编码器中进行特征提取,进行融合后得到最终的增强图像特征;将获取的待描述图像裁剪成不同大小的多个子图像,并对每个子图像进行检索得到不同大小的子图像的文本描述;将各子图像文本描述分别与所述增强图像特征映射至同一语义空间并进行多层次交互,以基于多层语义指导实现语义信息与视觉特征的校准得到校准后的全局特征;对校准后的全局特征进行解码,得到最终的图像描述结果。本发明能够准确理解图像上下文场景,生成准确、丰富的描述。

Patent Agency Ranking