-
公开(公告)号:CN117079177A
公开(公告)日:2023-11-17
申请号:CN202310808485.6
申请日:2023-07-04
Applicant: 北京工业大学
Abstract: 一种基于指称解析与感知增强的文本指代视频对象分割方法适用于计算机视觉与自然语言处理的交叉技术领域。该方法观察到在文本描述中存在对指代目标对象外观信息的描述词,即指代对象信息。然后,为了生成更加准确和精细的分割掩码,利用指代对象信息与视频进行分层融合,以增强视频中指代目标对象的语义信息。同时,由于生成的实例查询中,往往会夹杂一些冗余信息,对此引入对比学习,它可以对齐指代对象信息特征和相应的视觉特征,并引导模型生成更接近目标对象的实例查询。该方法的提出,主要解决的技术问题通过引入指代对象信息以及对比学习,来增强模型对指代对象的感知能力,以提高模型的分割性能。
-
公开(公告)号:CN118097489A
公开(公告)日:2024-05-28
申请号:CN202410049656.6
申请日:2024-01-12
Applicant: 北京工业大学
IPC: G06V20/40 , G06V20/70 , G06V10/22 , G06V10/26 , G06V10/44 , G06V10/46 , G06V10/62 , G06F18/25 , G06F40/284 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种基于记忆信息传输的文本指代视频对象分割方法适用于计算机视觉与自然语言处理的交叉领域。该方法将前一帧作为记忆信息,并将记忆信息应用到当前帧的对象推理中。为了传播内存信息,使用内存信息生成当前帧的伪掩码来指导当前帧的推理。这样做可以在帧之间建立联系,并在不引入额外混淆信息的情况下补充时间连续性。为了在单帧视觉信息输入下得到准确的分割结果,需要在完成时间建模的同时完成空间建模。该方法将记忆信息的传播与文本‑视觉特征交互结合起来,通过文本引导的特征交互过滤出与语言相关的视觉特征,完成空间建模。该方法通过引入记忆信息,来补全模型时间连续性的缺失,增强帧间指代实例的联系,以提高模型的分割性能。
-