-
公开(公告)号:CN116863536A
公开(公告)日:2023-10-10
申请号:CN202310815490.X
申请日:2023-07-04
Applicant: 桂林电子科技大学
IPC: G06V40/20 , G06V20/40 , G06V10/40 , G06V20/70 , G06V10/82 , G06N3/045 , G06N3/0499 , G06N3/0495 , G06N3/047 , G06N3/08
Abstract: 本发明公开了一种基于标记稀疏的视频动作识别方法。包括步骤:给定一个输入标记的序列,采用线性层为每个标记生成一个重要性分数;使用Gumbel‑Softmax从得分网络的输出中抽样;设计一种掩码策略来消除被丢弃的标记的影响;对于修剪后的标记,采用线性投影来保持标记数不变,在推理过程中,根据预测模块产生的概率将标记分为两组,使用自注意和线性投影来处理这两组标记,以保持特征结构;在前馈网络中引入非对称计算,保持混合子层的输入结构不变。本发明提出一个更通用的动态稀疏化框架的Transformer,它可以端到端训练,大量的实验证明了新框架在分层视觉Transformer架构上的有效性,此外,本发明在运行时动态地引入了空间稀疏性,降低了推理过程中的计算成本。
-
公开(公告)号:CN116129326A
公开(公告)日:2023-05-16
申请号:CN202310160041.6
申请日:2023-02-23
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于局部和全局注意力机制的视频动作识别方法。包括步骤:设计一个局部建模模块,在非重叠窗口内局部计算自注意,该窗口划分了一个标记映射,它从小的三维领域的局部时空上下文中提取特征;在局部建模模块中嵌入卷积前馈神经网络,用于捕获局部连续性和位置信息;设计一个全局建模模块,在像素级标记上应用注意力机制,每个转置的标记都抽象全局信息;在全局建模模块中嵌入跳跃连接的卷积层,组成基于卷积神经网络和Transformer的网络LGATNet;不使用预训练,LGATNet在动作识别的公开数据集上进行模型参数学习,并在测试集输出对应的测试结果。本发明有效利用了多尺度特征信息,大大提高了动作识别的准确性和实时性。
-