基于Transformer的视频多注意力机制的时序动作检测方法

    公开(公告)号:CN117037039A

    公开(公告)日:2023-11-10

    申请号:CN202311045216.5

    申请日:2023-08-18

    Abstract: 本发明公开了一种基于Transformer的视频多注意力机制的时序动作检测方法,包括如下步骤:S1、获取待检测的视频图像,将视频帧经过预训练的视频模型提取初始视频特征;S2、将所述视频特征输入到一个浅层卷积网络进行投影得到视频片段特征嵌入;S3、将所有特征嵌入输入到局部自注意力的Transformer模块输出其局部样式特征;S4、将所述的局部样式特征输入到全局自注意力的Transformer模块对长期依赖进行建模;S5、最终每个Transformer层的输出构建为特征金字塔结构;S6、将特征金字塔的每一层输入到检测头中,检测头中包括回归头和分类头,分别输出最终动作的时序边界和类别。该方法能够提升动作检测的准确率,同时效率比传统的Transformer模型更高。

Patent Agency Ranking