一种基于语义聚合的视频目标检测方法、系统及存储介质

    公开(公告)号:CN118115916A

    公开(公告)日:2024-05-31

    申请号:CN202410230314.4

    申请日:2024-02-29

    Abstract: 本发明提供一种基于语义聚合的视频目标检测方法、系统及存储介质。本发明方法,包括:提取视频特征;基于提取的视频特征,进行帧级别的特征聚合,生成增强后的特征f;基于生成的增强后的特征,获取候选区域特征;基于获取的候选区域特征,进行语义聚合,得到增强后的关键帧的区域候选特征;基于增强后的关键帧的区域候选特征,进行分类和回归,得到预测的类别和边界框信息,并计算损失函数;利用总损失函数更新网络参数,得到一个稳定的视频目标检测模型,将原始视频或图片序列输入到稳定的视频目标检测模型中,输出目标的类别和边界框。本发明通过应用注意力机制,对参考帧进行语义聚合来增强当前帧的特征图,进而提高视频目标检测的准确度。

    一种训练适用于视频监控设备的视频摘要方法

    公开(公告)号:CN116708952A

    公开(公告)日:2023-09-05

    申请号:CN202310705274.X

    申请日:2023-06-14

    Abstract: 本发明公开了一种训练适用于视频监控设备的视频摘要方法:包括如下步骤:使用监控设备收集原始视频;采用帧采样策略对原始视频进行下采样处理,获取每个视频帧的特征向量,将特征向量输入至时序卷积网络建立帧之间的长期依赖关系;将获取的一系列视频帧的特征向量输入到深度摘要网络中,采用双向时序卷积和自注意力机制将视频两个方向的上下文信息进行整合,从而捕获视频帧之间的长期依赖关系;将原始视频输入特征提取模块获取视频帧的特征,通过深度摘要网络获取视频帧特征之间的长期依赖关系,分别计算视频帧级重要性分数,通过背包算法选取分数高的部分组合成视频摘要。

    一种基于时序卷积网络的视频摘要方法

    公开(公告)号:CN116168323A

    公开(公告)日:2023-05-26

    申请号:CN202310067028.6

    申请日:2023-02-01

    Abstract: 本发明提供一种基于时序卷积网络的视频摘要方法,包括:获取视频数据集;基于获取的视频数据集,提取视频特征;将提取的视频特征输入深度摘要网络,捕获视频帧的重要性;通过判别器指导深度摘要网络的训练;对深度摘要网络进行训练;基于训练后的深度摘要网络,进行视频摘要。本发明通过使用时序卷积网络和自注意力的方法来训练视频摘要模型,不仅考虑了视频帧之间的长期依赖关系,还考虑了视频固有的时间顺序属性,并且能够利用GPU并行计算的优势加快训练速度,最后还使用基于GAN的无监督的方法解决了对于人工注释的依赖,可以在一定程度上提高视频摘要传达原始视频含义的能力,并且能够提高摘要效率。

Patent Agency Ranking