Patent search ap:("东北大学") AND inv:"张译" Page 1

1.

发明公开
一种基于大规模语言模型的密集视频检测方法审中-实审

公开(公告)号：CN117853978A

公开(公告)日：2024-04-09

申请号：CN202410023044.X

申请日：2024-01-08

Applicant: 东北大学

Inventor： 侯宝玉 , 张译 , 吴斯铭 , 马安香

IPC: G06V20/40 , G06V20/62 , G06V10/774

Abstract: 本发明的一种基于大规模语言模型的密集视频检测方法，包括：收集现有图像字幕数据集和视频字幕数据集，构造图像‑文本对和帧图像序列‑文本对；搭建多模态大语言模型框架，通过DeepSpeed工具进行分布式训练，利用图像‑文本对和帧图像序列‑文本对微调多模态大语言模型；收集现有密集视频数据集，对密集视频进行均匀采样得到帧图像序列，对密集视频的事件进行填充和截断；构造模型输入范式，对微调后的多模态大语言模型有监督微调实现密集视频检测。本发明将密集视频检测与多模态大语言模型相结合，通过迁移学习，充分利了用图像字幕与视频字幕任务的文本信息、多模态大语言模型的视觉和文本理解能力。

Patent Agency Ranking