一种基于语义聚合的视频目标检测方法、系统及存储介质

    公开(公告)号:CN118115916A

    公开(公告)日:2024-05-31

    申请号:CN202410230314.4

    申请日:2024-02-29

    Abstract: 本发明提供一种基于语义聚合的视频目标检测方法、系统及存储介质。本发明方法,包括:提取视频特征;基于提取的视频特征,进行帧级别的特征聚合,生成增强后的特征f;基于生成的增强后的特征,获取候选区域特征;基于获取的候选区域特征,进行语义聚合,得到增强后的关键帧的区域候选特征;基于增强后的关键帧的区域候选特征,进行分类和回归,得到预测的类别和边界框信息,并计算损失函数;利用总损失函数更新网络参数,得到一个稳定的视频目标检测模型,将原始视频或图片序列输入到稳定的视频目标检测模型中,输出目标的类别和边界框。本发明通过应用注意力机制,对参考帧进行语义聚合来增强当前帧的特征图,进而提高视频目标检测的准确度。

Patent Agency Ranking