-
公开(公告)号:CN119992410A
公开(公告)日:2025-05-13
申请号:CN202510004451.0
申请日:2025-01-02
Applicant: 北京科技大学
IPC: G06V20/40 , G06V10/22 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于双向线索增强的时序动作定位方法及系统,属于计算机视觉技术领域,该方法包括:获取待处理的视频数据;将获取的视频数据输入时序动作定位模型;其中,所述时序动作定位模型包括:视频特征提取模块、双向线索增强模块和动作检测头;所述视频特征提取模块用于提取视频数据对应的视频特征;所述双向线索增强模块用于采用双向的特征提取机制对视频特征提取模块提取的视频特征进行特征提取和增强,得到增强的特征;所述动作检测头用于根据增强的特征,完成对动作实例的分类和定位;利用所述时序动作定位模型对输入视频中的动作进行定位和分类。本发明方案可有效提升动作定位准确性。
-
公开(公告)号:CN119904781A
公开(公告)日:2025-04-29
申请号:CN202510010810.3
申请日:2025-01-03
Applicant: 北京科技大学
IPC: G06V20/40 , G06V40/20 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/74 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/09
Abstract: 本发明提供一种基于视觉语言预训练的开放词汇时空动作检测方法及装置,涉及时空动作检测技术领域。该方法包括:获取待检测的视频数据输入到局部分支得到与人相关的区域特征;局部分支包括以人为中心的与类别无关管检测器和位置感知的区域解析器;将视频数据输入到全局分支得到全局视频特征;全局分支包括视频层面的视觉语言预训练模型;将与人相关的区域特征以及全局视频特征融合,计算融合的视频区域特征与文本特征的相似度得到行为类别的分类结果。在UCF‑JHMDB数据集上进行广泛实验表明,本发明优于现有方法的性能。为解决开放识别能力不足的问题提供了一种可行的解决方案,为进一步研究时空动作检测提供了新的方向和思路。
-