基于标记稀疏的视频动作识别方法

    公开(公告)号:CN116863536A

    公开(公告)日:2023-10-10

    申请号:CN202310815490.X

    申请日:2023-07-04

    Inventor: 赵彬 滕寿淦 杨婷

    Abstract: 本发明公开了一种基于标记稀疏的视频动作识别方法。包括步骤:给定一个输入标记的序列,采用线性层为每个标记生成一个重要性分数;使用Gumbel‑Softmax从得分网络的输出中抽样;设计一种掩码策略来消除被丢弃的标记的影响;对于修剪后的标记,采用线性投影来保持标记数不变,在推理过程中,根据预测模块产生的概率将标记分为两组,使用自注意和线性投影来处理这两组标记,以保持特征结构;在前馈网络中引入非对称计算,保持混合子层的输入结构不变。本发明提出一个更通用的动态稀疏化框架的Transformer,它可以端到端训练,大量的实验证明了新框架在分层视觉Transformer架构上的有效性,此外,本发明在运行时动态地引入了空间稀疏性,降低了推理过程中的计算成本。

Patent Agency Ranking