视频文本特征提取模型的训练方法、文本视频匹配方法

    公开(公告)号:CN117557940A

    公开(公告)日:2024-02-13

    申请号:CN202311553021.1

    申请日:2023-11-20

    Inventor: 张杰 刘佳 林义杰

    Abstract: 本说明书的实施例提供了一种视频文本特征提取模型的训练方法、文本视频匹配方法和装置。在该视频文本特征提取模型的训练方法中,利用当前视频文本特征提取模型提取与当前训练样本集中的各个视频文本对的视频数据和文本数据分别对应的视频特征和文本特征,视频数据包括从长视频中采样得到的视频片段;根据所得到的各个视频特征和文本特征之间的相似度,生成与当前训练样本集对应的原生相似度矩阵;再基于原生相似度矩阵对视频数据与文本数据进行对齐,得到用于指示视频数据与文本数据之间的潜在对齐关系的关系校正矩阵;根据原生相似度矩阵和对应的关系校正矩阵确定当前训练样本集对应的对比损失值,进而据此调整当前视频文本特征提取模型的参数。

Patent Agency Ranking