视频文本组合检索方法、装置、电子设备及存储介质

    公开(公告)号:CN117216320A

    公开(公告)日:2023-12-12

    申请号:CN202311110067.6

    申请日:2023-08-30

    Abstract: 本申请公开了视频文本组合检索方法、装置、电子设备及存储介质,涉及视频检索技术领域。通过获取原始视频和检索文本,对原始视频帧进行编码得到高层视觉特征和中层视觉特征,并对检索文本进行编码得到检索文本特征。设置高层分支根据时序信息提取高层视觉中的高级保留特征以及检索文本特征中的高级差异特征,融合得到高层融合特征。设置中层分支利用注意力机制根据中层保留特征和中层差异特征提取更细粒度的时空特征,融合得到中层融合特征。最后根据对各个特征进行层级多融合得到目标融合特征,从而对预设视频库进行检索得到目标视频。由此从不同粒度描述了用户的视觉需求,有效提高了视频检索的准确性,准确查找满足用户需求的目标视频。

Patent Agency Ranking