基于结构化多模态融合网络的文本指导图像分割方法

    公开(公告)号:CN115661830A

    公开(公告)日:2023-01-31

    申请号:CN202211331171.3

    申请日:2022-10-28

    Abstract: 本发明提供一种基于结构化多模态融合网络的文本指导图像分割方法,通过构建多个多模态融合结构来联合建模全局多模态上下文,高亮文本描述的物体所在的空间区域,进一步通过构建多层次渐进细化模块来整合高层次语义和低层次视觉特征从而将文本描述的物体与相似的物体明显区分开、生成精准的分割掩码。该方法主要包括:特征提取、渐进的多模态融合树模块构建、跨膜态融合Transformer模块构建、多层次渐进融合细化模块构建。使用卷积神经网络提取图片中的语义特征;通过渐进的多模态融合树模块建模初步的全局多模态上下文信息;再通过跨膜态融合Transformer模块进一步的建模高质量的全局多模态上下文;最后通过整合高层次多模态语义和低层次视觉细节信息来补充文本描述物体所在空间区域的视觉细节从而明确物体之间的边界,使文本描述的物体与其他物体明显区分开,最终生成精确的分割掩码。

Patent Agency Ranking