-
公开(公告)号:CN116226452A
公开(公告)日:2023-06-06
申请号:CN202310226304.9
申请日:2023-03-03
Applicant: 浙江工商大学
IPC: G06F16/783 , G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/096
Abstract: 本发明公开了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置,从一个新的角度来处理跨模态视频检索,即从大规模视觉语言预训练模型中提取泛化知识,并将其转移到任务特定网络。该方法是一个具有动态知识蒸馏的双重学习框架,利用大规模视觉语言模型的知识作为教师来指导学生模型。在知识蒸馏过程中,设计了一个继承分支来吸收教师模型中的知识,同时为了避免大规模预训练模型由于领域差距而导致的性能差异,设计了一个探索分支来探索下游任务的特定属性。本发明提出的网络模型利用双分支结构,能够深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。
-