-
公开(公告)号:CN115809352A
公开(公告)日:2023-03-17
申请号:CN202211581256.7
申请日:2022-12-09
Applicant: 上海交通大学
IPC: G06F16/732 , G06F16/783 , G06F40/279 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464
Abstract: 本发明提供了一种局部监督长视频时序文本检索方法及系统,包括:根据输入检索文本提取文本初始特征;根据输入长视频提取视频初始特征;将文本初始特征和视频初始特征进行跨模态融合为文本特征图和视频特征图;将视频特征图映射为文本描述的事件提案,进而计算事件时序位置掩膜;根据局部时序标签监督事件提案;基于时序位置掩膜,对事件特征和文本特征进行聚合;基于事件特征、文本特征进行多模态特征对比学习;基于事件提案计算粗略检索结果;对粗略检索结果进行细化,产生精确边界检索结果图;基于精确边界检索结果图产生最终预测。本发明通过局部监督在维持低廉标注成本的同时,也提供了精确的检索位置锚,奠定了强大的性能基石。