-
公开(公告)号:CN119850952A
公开(公告)日:2025-04-18
申请号:CN202411914326.5
申请日:2024-12-24
Applicant: 上海工程技术大学
IPC: G06V10/26 , G06V10/52 , G06V10/80 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/048 , G06N3/045 , G06N3/08
Abstract: 本发明涉及图像分割技术领域,更具体地说,涉及自回归顶点生成与语言结构引导的图像指代分割方法,获取输入图像和对应的指代查询语句;利用预训练的视觉编码器获取输入图像的多尺度视觉特征;利用预训练的语言编码器获取指代查询语句的语言特征;基于多尺度视觉特征,构建图像语义场景图;基于语言特征,构建查询语言依存图;利用图对齐机制和特征对齐机制,实现图像语义场景图与查询语言依存图的结构化多模态融合;基于结构化多模态融合的结果,采用语言引导的自回归实例生成方法生成目标实例的轮廓点序列;根据轮廓点序列生成目标实例的分割掩码;输出分割掩码作为图像指代分割的结果,实现了显著的性能提升。