-
公开(公告)号:CN116959100A
公开(公告)日:2023-10-27
申请号:CN202310732026.4
申请日:2023-06-20
Applicant: 北京邮电大学
IPC: G06V40/20 , G06V20/40 , G06V10/774 , G06V10/82
Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。
-
公开(公告)号:CN116959100B
公开(公告)日:2024-10-11
申请号:CN202310732026.4
申请日:2023-06-20
Applicant: 北京邮电大学
IPC: G06V40/20 , G06V20/40 , G06V10/774 , G06V10/82
Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。
-
公开(公告)号:CN116310975A
公开(公告)日:2023-06-23
申请号:CN202310241056.5
申请日:2023-03-14
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。
-
公开(公告)号:CN116310975B
公开(公告)日:2024-06-25
申请号:CN202310241056.5
申请日:2023-03-14
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。
-
-
-