-
公开(公告)号:CN117853978A
公开(公告)日:2024-04-09
申请号:CN202410023044.X
申请日:2024-01-08
Applicant: 东北大学
IPC: G06V20/40 , G06V20/62 , G06V10/774
Abstract: 本发明的一种基于大规模语言模型的密集视频检测方法,包括:收集现有图像字幕数据集和视频字幕数据集,构造图像‑文本对和帧图像序列‑文本对;搭建多模态大语言模型框架,通过DeepSpeed工具进行分布式训练,利用图像‑文本对和帧图像序列‑文本对微调多模态大语言模型;收集现有密集视频数据集,对密集视频进行均匀采样得到帧图像序列,对密集视频的事件进行填充和截断;构造模型输入范式,对微调后的多模态大语言模型有监督微调实现密集视频检测。本发明将密集视频检测与多模态大语言模型相结合,通过迁移学习,充分利了用图像字幕与视频字幕任务的文本信息、多模态大语言模型的视觉和文本理解能力。