一种受阅读策略启发的跨模态视频检索方法

    公开(公告)号:CN114003770A

    公开(公告)日:2022-02-01

    申请号:CN202111084182.1

    申请日:2021-09-15

    Abstract: 本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法,对于视频编码,采用预览分支和精读分支共同学习来表示视频,预览分支旨在简要地捕捉视频的概述信息,而精读分支旨在获取更深入的信息,本发明将从预览分支生成的较早的视频特征集成到精读分支中,对精读分支的特征提取做进一步指导,使得精读分支可以感知预览分支捕获的视频概述,用于提取更细粒度的特征,将两个分支的得到特征分别与文本特征映射到两个不同的混合空间中,在混合空间中进行跨模态匹配,从而实现文本到视频的跨模态检索。本发明使用端到端的方式训练模型,并在性能和模型复杂度上达到了最佳平衡。

    基于双分支动态蒸馏学习的跨模态视频检索方法及装置

    公开(公告)号:CN116226452A

    公开(公告)日:2023-06-06

    申请号:CN202310226304.9

    申请日:2023-03-03

    Abstract: 本发明公开了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置,从一个新的角度来处理跨模态视频检索,即从大规模视觉语言预训练模型中提取泛化知识,并将其转移到任务特定网络。该方法是一个具有动态知识蒸馏的双重学习框架,利用大规模视觉语言模型的知识作为教师来指导学生模型。在知识蒸馏过程中,设计了一个继承分支来吸收教师模型中的知识,同时为了避免大规模预训练模型由于领域差距而导致的性能差异,设计了一个探索分支来探索下游任务的特定属性。本发明提出的网络模型利用双分支结构,能够深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。

    基于多面视频表示学习的文本到视频的跨模态检索方法

    公开(公告)号:CN114817627A

    公开(公告)日:2022-07-29

    申请号:CN202210425802.1

    申请日:2022-04-21

    Abstract: 本发明公开了一种基于多面视频表示学习的文本到视频的跨模态检索方法,该方法包括:获取视频和文本初步特征;使用视频分镜工具将视频初始帧按照不同场景进行分组后,输入显示编码分支进行显式编码,得到视频不同场景的显式多面表示;将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;将两分支的多面编码相互融合得到多面视频特征表示;将多面视频特征表示和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两模态之间相关度,以端到端的方式训练模型,实现文本到视频的跨模态检索。本发明方法利用视频多面表示思想,提高了检索性能。

Patent Agency Ranking