一种基于指称解析与感知增强的文本指代视频对象分割方法

    公开(公告)号:CN117079177A

    公开(公告)日:2023-11-17

    申请号:CN202310808485.6

    申请日:2023-07-04

    Abstract: 一种基于指称解析与感知增强的文本指代视频对象分割方法适用于计算机视觉与自然语言处理的交叉技术领域。该方法观察到在文本描述中存在对指代目标对象外观信息的描述词,即指代对象信息。然后,为了生成更加准确和精细的分割掩码,利用指代对象信息与视频进行分层融合,以增强视频中指代目标对象的语义信息。同时,由于生成的实例查询中,往往会夹杂一些冗余信息,对此引入对比学习,它可以对齐指代对象信息特征和相应的视觉特征,并引导模型生成更接近目标对象的实例查询。该方法的提出,主要解决的技术问题通过引入指代对象信息以及对比学习,来增强模型对指代对象的感知能力,以提高模型的分割性能。

Patent Agency Ranking