-
公开(公告)号:CN116168329A
公开(公告)日:2023-05-26
申请号:CN202310307393.X
申请日:2023-03-27
Applicant: 南京大学
IPC: G06V20/40 , G06V40/20 , G06V10/764 , G06V10/25 , G06V10/80 , G06V10/40 , G06V10/77 , G06V10/776 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 基于关键帧筛选像素块的视频动作检测方法、设备及介质,构建检测器对输入视频片段进行动作检测,检测器对视频帧进行特征提取以及以关键帧为中心的token筛选,然后基于查询对关键帧进行人物定位,最后基于扩展的RoI和紧凑的时空上下文进行关系建模,预测人物可能执行的多个动作。本发明提出了一种加速视频动作检测器EVAD,在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块,以逐步删除非关键帧特征中的无效tokens,并以端到端的方式预测人物定位和动作分类,极大地提升了模型的推理速度,对实时动作检测友好。