-
公开(公告)号:CN115861879A
公开(公告)日:2023-03-28
申请号:CN202211490319.8
申请日:2022-11-25
Applicant: 北京邮电大学
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06N3/048 , G06N3/08 , G10L25/51 , G10L25/57 , G10L25/30 , G10L25/03
Abstract: 本发明提出一种基于事件一致性的视听事件检测方法,包括:获取目标视频;将目标视频划分为N个不重叠的连续片段,获取图像流和音频流;对图像流和音频流进行特征提取,获取视听特征;通过视听联合学习将视听特征融合,其中,视听联合学习包括片段层面的特征编码以及视频层面的语义指导;将融合后的视听特征输入分类器中,得到目标视频的预测结果。本发明的方法利用事件的语义一致性来分别指导视觉和听觉模态的学习,可以确保模型更好地聚焦和定位发声对象。