-
公开(公告)号:CN116259074A
公开(公告)日:2023-06-13
申请号:CN202310079023.5
申请日:2023-01-17
Applicant: 北京邮电大学
IPC: G06V40/10 , G06V40/20 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明提出一种端到端的局部视频行为语义预测方法,包括,获取包含人体运动的视频;对视频中的片段采样x帧原始帧,对x帧原始帧的RGB差分信息进行下采样,通过2D卷积网络对下采样得到的RGB差分特征进行特征提取,获得局部运动特征,对局部运动特征进行上采样,获得最终的局部运动特征;将原始帧通过2D卷积网络得到局部空间特征,将最终的局部运动特征与局部空间特征融合得到融合特征;将融合特征与局部运动特征融合得到片段的时空特征;根据视频中所有片段的时空特征,得到历史全局尺度,根据历史全局尺度对视频进行动作类别预测。通过本发明提出的方法,实现了以端到端的方式预测局部视频中的人体行为语义。