一种基于跨模态深度学习的多目标图像分割方法

    公开(公告)号:CN119672331A

    公开(公告)日:2025-03-21

    申请号:CN202411632220.6

    申请日:2024-11-15

    Applicant: 扬州大学

    Inventor: 吴义 章永龙

    Abstract: 本发明公开了一种基于跨模态深度学习的多目标图像分割方法,包括以下步骤:(1)采集黄瓜图像数据和文本数据并进行预处理;(2)利用基于卷积神经网络模型的DeepLab v3中的编码器提取输入图像的特征,利用递归神经网络模型长短时记忆网络LSTM提取输入文本特征;(3)选取无监督掩码生成器FreeSOLO获取输入图像中所有目标的掩码候选区域,并采用逐元素相乘法,获取每个掩码的视觉特征;(4)处理掩码视觉特征与文本特征,获得对应的特征序列,采用跨模态注意力机制计算图像序列与文本序列间的相似度获得注意力权重;(5)在注意力机制输出的融合掩码特征后设置“激活门”;利用过滤器筛选出被激活的掩码候选区域并采用聚合器进行聚合;(6)将聚合获得的掩码与提取的视觉特征融合,输入到长短时记忆网络中进行文本重构;(7)输出结果;本发明可以得到比较准确的多目标分割结果。

Patent Agency Ranking