-
公开(公告)号:CN116186328A
公开(公告)日:2023-05-30
申请号:CN202310012387.1
申请日:2023-01-05
Applicant: 厦门大学
IPC: G06F16/783 , G06V10/40 , G06V10/762 , G06V10/774
Abstract: 一种基于预聚类引导的视频文本跨模态检索方法,涉及视频文本跨模态检索。针对无标注数据集上,无监督训练视频文本跨模态检索模型时,存在样本对构建不合理而导致监督信息弱的问题:1)提取训练数据集的视频、文本原始特征;2)拼接时间对齐的归一化原始特征作为统一特征,设定一组阈值多次DBSCAN聚类产生多组聚类簇;3)每个聚类簇的视频、文本特征分别计算均值作为聚类中心;4)采样一批训练样本,对于每组聚类中心,视频、文本分别寻找距离最近的中心构建伪标签,构建视频文本正样本对;5)将原始特征投影至共同空间,以多组中心对应的正样本计算损失加权组合,反向传播更新投影模型;6)重复4)~5)至达到预定的训练轮数。