一种基于双分支时空交互网络的视频人群计数方法

    公开(公告)号:CN118781553A

    公开(公告)日:2024-10-15

    申请号:CN202411274223.7

    申请日:2024-09-12

    Abstract: 本发明公开了一种基于双分支时空交互网络的视频人群计数方法,包括步骤:通过随机剪裁和水平翻转,对连续的训练视频帧进行数据增强;构建由编码器、解码器和融合网络组成的双分支时空交互网络;编码器包括一个ConvNeXt‑2D模型、一个ConvNeXt‑3D模型和一个时空全连接聚合;解码器通过集成多个通道交叉注意力模块和转置卷积在多个尺度上实现2D空间特征和3D时空特征的交互,并分别生成ConvNeXt‑2D模型和ConvNeXt‑3D模型的人群密度图;融合网络通过融合两模型的人群密度图来输出最终融合的人群密度图;对双分支时空交互网络进行训练后,保存最优模型。本发明能够更准确地估计视频帧包含的人数。

    一种基于双分支时空交互网络的视频人群计数方法

    公开(公告)号:CN118781553B

    公开(公告)日:2024-11-29

    申请号:CN202411274223.7

    申请日:2024-09-12

    Abstract: 本发明公开了一种基于双分支时空交互网络的视频人群计数方法,包括步骤:通过随机剪裁和水平翻转,对连续的训练视频帧进行数据增强;构建由编码器、解码器和融合网络组成的双分支时空交互网络;编码器包括一个ConvNeXt‑2D模型、一个ConvNeXt‑3D模型和一个时空全连接聚合;解码器通过集成多个通道交叉注意力模块和转置卷积在多个尺度上实现2D空间特征和3D时空特征的交互,并分别生成ConvNeXt‑2D模型和ConvNeXt‑3D模型的人群密度图;融合网络通过融合两模型的人群密度图来输出最终融合的人群密度图;对双分支时空交互网络进行训练后,保存最优模型。本发明能够更准确地估计视频帧包含的人数。

Patent Agency Ranking