基于跨模态文本检索注意力机制的文本指导图像分割方法

    公开(公告)号:CN113657400B

    公开(公告)日:2024-12-03

    申请号:CN202110952433.7

    申请日:2021-08-19

    Abstract: 一种基于跨模态文本检索注意力机制的文本指导图像分割方法,该方法将文本作为查询向量,多模态特征作为检索空间,自适应关注多模态特征空间中与文本相似区域,定位目标物体。该方法包括:特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征;使用哈达玛积将视觉、语言特征信息深度融合;采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域,最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度,实现区域的精确分割。

    基于结构化多模态融合网络的文本指导图像分割方法

    公开(公告)号:CN115661830A

    公开(公告)日:2023-01-31

    申请号:CN202211331171.3

    申请日:2022-10-28

    Abstract: 本发明提供一种基于结构化多模态融合网络的文本指导图像分割方法,通过构建多个多模态融合结构来联合建模全局多模态上下文,高亮文本描述的物体所在的空间区域,进一步通过构建多层次渐进细化模块来整合高层次语义和低层次视觉特征从而将文本描述的物体与相似的物体明显区分开、生成精准的分割掩码。该方法主要包括:特征提取、渐进的多模态融合树模块构建、跨膜态融合Transformer模块构建、多层次渐进融合细化模块构建。使用卷积神经网络提取图片中的语义特征;通过渐进的多模态融合树模块建模初步的全局多模态上下文信息;再通过跨膜态融合Transformer模块进一步的建模高质量的全局多模态上下文;最后通过整合高层次多模态语义和低层次视觉细节信息来补充文本描述物体所在空间区域的视觉细节从而明确物体之间的边界,使文本描述的物体与其他物体明显区分开,最终生成精确的分割掩码。

    基于多层次显式关系选择的文本指导图像分割方法

    公开(公告)号:CN112037239A

    公开(公告)日:2020-12-04

    申请号:CN202010882340.7

    申请日:2020-08-28

    Abstract: 本发明提供一种基于多层次显式关系选择的文本指导图像分割方法,从图像语义中的实体关系,多尺度文本等多角度多层次指导图像分割,使得该方法对于丰富复杂的语言描述也可得到准确的结果。该方法主要包括:特征提取、金字塔池化、空间实体关系捕捉和多层图文关系强化。使用卷积神经网络提取图片中的语义特征;通过增加不同大小箱的金字塔池化方法得到具有全局信息的图片特征;再通过自注意力机制获取图片空间上的实体与实体之间的关系,当句子中含有多个实体描述时,能够有效提高实体定位的准确性;最后通过不同尺度的自然语言文本向量循环增强图像与语言之间的联系,对前一步结果进行多次矫正,得到更具鲁棒性结果。

    基于多层次显式关系选择的文本指导图像分割方法

    公开(公告)号:CN112037239B

    公开(公告)日:2022-09-13

    申请号:CN202010882340.7

    申请日:2020-08-28

    Abstract: 本发明提供一种基于多层次显式关系选择的文本指导图像分割方法,从图像语义中的实体关系,多尺度文本等多角度多层次指导图像分割,使得该方法对于丰富复杂的语言描述也可得到准确的结果。该方法主要包括:特征提取、金字塔池化、空间实体关系捕捉和多层图文关系强化。使用卷积神经网络提取图片中的语义特征;通过增加不同大小箱的金字塔池化方法得到具有全局信息的图片特征;再通过自注意力机制获取图片空间上的实体与实体之间的关系,当句子中含有多个实体描述时,能够有效提高实体定位的准确性;最后通过不同尺度的自然语言文本向量循环增强图像与语言之间的联系,对前一步结果进行多次矫正,得到更具鲁棒性结果。

    基于跨模态文本检索注意力机制的文本指导图像分割方法

    公开(公告)号:CN113657400A

    公开(公告)日:2021-11-16

    申请号:CN202110952433.7

    申请日:2021-08-19

    Abstract: 一种基于跨模态文本检索注意力机制的文本指导图像分割方法,该方法将文本作为查询向量,多模态特征作为检索空间,自适应关注多模态特征空间中与文本相似区域,定位目标物体。该方法包括:特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征;使用哈达玛积将视觉、语言特征信息深度融合;采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域,最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度,实现区域的精确分割。

Patent Agency Ranking