一种基于预聚类引导的视频文本跨模态检索方法

    公开(公告)号:CN116186328A

    公开(公告)日:2023-05-30

    申请号:CN202310012387.1

    申请日:2023-01-05

    Applicant: 厦门大学

    Abstract: 一种基于预聚类引导的视频文本跨模态检索方法,涉及视频文本跨模态检索。针对无标注数据集上,无监督训练视频文本跨模态检索模型时,存在样本对构建不合理而导致监督信息弱的问题:1)提取训练数据集的视频、文本原始特征;2)拼接时间对齐的归一化原始特征作为统一特征,设定一组阈值多次DBSCAN聚类产生多组聚类簇;3)每个聚类簇的视频、文本特征分别计算均值作为聚类中心;4)采样一批训练样本,对于每组聚类中心,视频、文本分别寻找距离最近的中心构建伪标签,构建视频文本正样本对;5)将原始特征投影至共同空间,以多组中心对应的正样本计算损失加权组合,反向传播更新投影模型;6)重复4)~5)至达到预定的训练轮数。

Patent Agency Ranking