-
公开(公告)号:CN117473119A
公开(公告)日:2024-01-30
申请号:CN202311811165.2
申请日:2023-12-27
Applicant: 苏州大学
IPC: G06F16/783 , G06V30/19
Abstract: 本发明涉及多模态检索领域,公开了一种文本视频检索方法及装置,包括:获取文本样本的编码文本特征与动量文本特征;提取每帧样本图像的编码图像特征与动量图像特征;将每个视频数据多帧样本图像的编码图像特征输入帧选择模块,获取重要性分数;基于动量文本特征与每个动量图像特征的余弦相似度,获取每帧样本图像的相关性分数;构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数;训练直至散度损失函数收敛,获取预先训练好的帧选择模块;利用包含预先训练好的帧选择模块的文本视频检索模型,基于待检测文本及检索视频集,选取每个检索视频数据的K帧优化关键帧,构建优化视频特征,计算与待检测文本的相似性来选取相关视频。
-
公开(公告)号:CN117473119B
公开(公告)日:2024-03-01
申请号:CN202311811165.2
申请日:2023-12-27
Applicant: 苏州大学
IPC: G06F16/783 , G06V30/19
Abstract: 本发明涉及多模态检索领域,公开了一种文本视频检索方法及装置,包括:获取文本样本的编码文本特征与动量文本特征;提取每帧样本图像的编码图像特征与动量图像特征;将每个视频数据多帧样本图像的编码图像特征输入帧选择模块,获取重要性分数;基于动量文本特征与每个动量图像特征的余弦相似度,获取每帧样本图像的相关性分数;构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数;训练直至散度损失函数收敛,获取预先训练好的帧选择模块;利用包含预先训练好的帧选择模块的文本视频检索模型,基于待检测文本及检索视频集,选取每个检索视频数据的K帧优化关键帧,构建优化视频特征,计算与待检测文本的相似性来选取相关视频。
-