自适应的多模态协同视频理解系统及方法

    公开(公告)号:CN119723423A

    公开(公告)日:2025-03-28

    申请号:CN202411959661.7

    申请日:2024-12-30

    Applicant: 厦门大学

    Abstract: 本发明公开一种自适应的多模态协同视频理解系统及方法,通过自适应的多模态协同处理框架解决长视频理解的挑战。不同于现有技术主要依赖增加采样密度的预训练模型或使用专有模型,本发明设计了一套完整的信息提取和融合机制,能够智能地整合视频中的多维度信息。系统首先通过解耦文本提示将用户查询解析为多维度的信息检索需求,然后通过并行化处理实现同时提取视频中的多模态信息,再采用基于相似度的自适应采样机制实现信息的精准提取以确保处理效率,最后通过信息融合与循环增强机制,使得系统能够持续优化理解结果,直到达到预期的理解深度。本发明能够节约更多的GPU资源,灵活度更高,完全依赖于开源模型,使用成本将极大减少。

    三维点云密集字幕生成与视觉定位的联合推理方法及装置

    公开(公告)号:CN118433331A

    公开(公告)日:2024-08-02

    申请号:CN202410347891.1

    申请日:2024-03-26

    Applicant: 厦门大学

    Abstract: 本发明公开了一种三维点云密集字幕生成和视觉定位的联合推理方法及装置,涉及三维视觉任务技术领域。所述方法包括:将双线索描述生成器DCC作为密集字幕生成模块引入基于DETR架构的3DVG模型构成联合模型,DCC处理双重视觉线索Vc=(Q,V),在描述一个提议时,标准的“序列开始标记”前缀被描述查询中的查询Q替换,以识别焦点中的物体,同时引入视觉特征V作为物体与周围环境互动和关系信息的载体;模型推理时,描述性文本包括3DVG描述文本和/或3DDC描述文本,得到描述的目标框和/或所有标签框及对应的密集的字幕。本发明提供的一种三维点云密集字幕生成和视觉定位的联合推理方法及装置,通过构建单阶段的联合推理框架实现了高效的端到端训练。

Patent Agency Ranking