-
公开(公告)号:CN118097489A
公开(公告)日:2024-05-28
申请号:CN202410049656.6
申请日:2024-01-12
Applicant: 北京工业大学
IPC: G06V20/40 , G06V20/70 , G06V10/22 , G06V10/26 , G06V10/44 , G06V10/46 , G06V10/62 , G06F18/25 , G06F40/284 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种基于记忆信息传输的文本指代视频对象分割方法适用于计算机视觉与自然语言处理的交叉领域。该方法将前一帧作为记忆信息,并将记忆信息应用到当前帧的对象推理中。为了传播内存信息,使用内存信息生成当前帧的伪掩码来指导当前帧的推理。这样做可以在帧之间建立联系,并在不引入额外混淆信息的情况下补充时间连续性。为了在单帧视觉信息输入下得到准确的分割结果,需要在完成时间建模的同时完成空间建模。该方法将记忆信息的传播与文本‑视觉特征交互结合起来,通过文本引导的特征交互过滤出与语言相关的视觉特征,完成空间建模。该方法通过引入记忆信息,来补全模型时间连续性的缺失,增强帧间指代实例的联系,以提高模型的分割性能。