-
公开(公告)号:CN116524403A
公开(公告)日:2023-08-01
申请号:CN202310481888.4
申请日:2023-04-28
Applicant: 东北大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于注意力增强多模态特征的视频拷贝检测方法,包括:提取视频数据中的帧图像特征和音频特征;对提取的帧图像特征和音频特征进行自注意力增强以及交叉注意力增强,获取特征中隐藏的长程依赖信息;利用多模态因子分解双线性池化层对增强后的帧图像特征和音频特征进行特征融合;利用局部特征匹配网络生成查询视频和拷贝视频的相似性矩阵;利用检测到的视频拷贝区域和标签真值之间在相似性矩阵上的差异构成训练损失,以数据驱动的方式进行神经网络的学习。本发明不仅提取速度更快且融合了多模态信息,应对复杂变换的拷贝视频,都能进行准确检测,可以更好的指导诸如视频检索、视频动作理解、视频拷贝等下游任务,具有鲁棒性高的特点。