一种基于大规模语言模型的密集视频检测方法

    公开(公告)号:CN117853978A

    公开(公告)日:2024-04-09

    申请号:CN202410023044.X

    申请日:2024-01-08

    Applicant: 东北大学

    Abstract: 本发明的一种基于大规模语言模型的密集视频检测方法,包括:收集现有图像字幕数据集和视频字幕数据集,构造图像‑文本对和帧图像序列‑文本对;搭建多模态大语言模型框架,通过DeepSpeed工具进行分布式训练,利用图像‑文本对和帧图像序列‑文本对微调多模态大语言模型;收集现有密集视频数据集,对密集视频进行均匀采样得到帧图像序列,对密集视频的事件进行填充和截断;构造模型输入范式,对微调后的多模态大语言模型有监督微调实现密集视频检测。本发明将密集视频检测与多模态大语言模型相结合,通过迁移学习,充分利了用图像字幕与视频字幕任务的文本信息、多模态大语言模型的视觉和文本理解能力。

Patent Agency Ranking