基于情境记忆提示的跨模态视频时序内容定位方法及系统

    公开(公告)号:CN119672611A

    公开(公告)日:2025-03-21

    申请号:CN202411846632.X

    申请日:2024-12-16

    Inventor: 刘天山 鲍秉坤

    Abstract: 本发明公开了基于情境记忆提示的跨模态视频时序内容定位方法及系统,涉及跨模态理解技术领域,通过阶段一动态产生一组情境记忆,显式总结输入视频中发生的多种行为实例;通过施加判别性和多样性约束来制定无监督记忆学习范式,消除对额外行为实例标注的依赖。其次,阶段二中基于帧级别细节内容补充和语言查询交互获取增强的记忆提示,并进一步作为锚框,实现对目标时刻片段边界的精准高效回归。与传统的基于滑动窗口或基于多尺度锚框的策略相比,本发明提出的跨模态视频时序内容定位方法更加符合认知习惯,在处理长视频时具备性能和效率优势。

Patent Agency Ranking