一种基于交叉环境注意力的指代图像分割方法

    公开(公告)号:CN116704506A

    公开(公告)日:2023-09-05

    申请号:CN202310737250.2

    申请日:2023-06-21

    Inventor: 刘骏华 孔雨秋

    Abstract: 本发明属于指代图像分割领域,具体涉及一种基于交叉环境注意力的指代图像分割方法。首先用语言编码器和视觉编码器提取文本和图像的原始特征,并分别构建语义图和视觉图结构;其次利用交叉注意力机制将文本和图像节点特征映射到多模态特征空间中,通过学习交叉环境信息对边特征进行嵌入,进而计算跨模态关系矩阵,得到文本和图像的跨模态特征表示;最后利用在多个尺度上整合多模态特征得到最终的分割掩膜。本发明根据不同的全局语义特征,自适应地调整多模态对应关系,增强了模型对跨模态信息的理解能力。通过利用真实的多模态数据集评估本发明,验证了本发明的性能达到了国际先进水平。

Patent Agency Ranking