一种基于多粒度特征交互的跨模态检索方法

    公开(公告)号:CN114037945A

    公开(公告)日:2022-02-11

    申请号:CN202111506944.2

    申请日:2021-12-10

    Abstract: 本发明公开了一种基于多粒度特征交互的跨模态检索方法,用于实现视频和文本之间的相互检索任务。本发明使用全局视觉语义特征指导局部视觉语义特征来获取更加细粒度的局部信息,随后让全局视觉语义特征和经过增强的局部视觉语义特征进行相互学习融合得到视频级别的特征。将经过学习得到的视频级别特征与文本特征映射到同一个嵌入空间中,在嵌入空间中进行跨模态匹配,从而实现文本和视频之间的跨模态检索。本发明是一种基于神经网络的跨模态检索方法,在性能和复杂度上达到了较优平衡。

    基于双分支动态蒸馏学习的跨模态视频检索方法及装置

    公开(公告)号:CN116226452A

    公开(公告)日:2023-06-06

    申请号:CN202310226304.9

    申请日:2023-03-03

    Abstract: 本发明公开了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置,从一个新的角度来处理跨模态视频检索,即从大规模视觉语言预训练模型中提取泛化知识,并将其转移到任务特定网络。该方法是一个具有动态知识蒸馏的双重学习框架,利用大规模视觉语言模型的知识作为教师来指导学生模型。在知识蒸馏过程中,设计了一个继承分支来吸收教师模型中的知识,同时为了避免大规模预训练模型由于领域差距而导致的性能差异,设计了一个探索分支来探索下游任务的特定属性。本发明提出的网络模型利用双分支结构,能够深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。

Patent Agency Ranking