-
公开(公告)号:CN119739896A
公开(公告)日:2025-04-01
申请号:CN202411821939.4
申请日:2024-12-11
Applicant: 安徽大学
IPC: G06F16/783 , G06F16/78 , G06V20/40 , G06V30/19
Abstract: 本发明公开了一种基于压缩域视频流的视频文本检索方法,涉及视频处理技术领域,解决了当对模型进行训练时,若丢失了一部分的时序信息,可能会导致训练的模型检索能力不足的技术问题;本发明获取视频和文本的训练数据集,并对训练数据集中的视频进行预处理;利用图像编码器提取数据集中视频的关键帧特征,通过平均池化的方式整合关键帧特征,得到视频特征;利用卷积层和轻量级视觉转换器构建压缩特征提取编码器,对视频特征进行提取;构建压缩视频特征融合网络,对关键特征进行预测,得到预测视频特征;利用文本编码器生成单词特征和句子特征;计算视频与文本的匹配程度,得到最终匹配结果;有利于提高检索的效率和准确性。