-
公开(公告)号:CN119494068A
公开(公告)日:2025-02-21
申请号:CN202411656744.9
申请日:2024-11-19
Applicant: 西安电子科技大学广州研究院 , 广州通则康威科技股份有限公司
IPC: G06F18/2433 , G06V20/40 , G06V10/40 , G06F18/10 , G06F18/213 , G06V10/764 , G06N3/0464 , G06F18/25 , G06N3/047 , G06N3/0455
Abstract: 本发明适用于异常检测技术领域,尤其涉及基于动态决策机制的云边多模态异常事件检测系统,所述系统包括:数据采集模块,用于对视频和音频进行采集,得到多模态数据;数据预处理模块,用于进行预处理,得到预处理数据;关键特征提取模块,用于进行关键帧特征提取和关键频段特征提取;多模态异常检测模块,用于进行异常判断;云端大模型智能处理模块,用于对检测到的异常片段进行分析,输出生成式文本结果。本发明提供的基于动态决策机制的云边多模态异常事件检测系统,通过视频和音频数据的结合,提供了更全面的事件理解和异常检测。在边缘端使用卷积神经网络提取深层次特征,提高检测准确率,并有效降低误报率。
-
公开(公告)号:CN119723431A
公开(公告)日:2025-03-28
申请号:CN202510234368.2
申请日:2025-02-28
Applicant: 西安电子科技大学广州研究院 , 广州通则康威科技股份有限公司
Abstract: 本发明实施例涉及视频处理技术领域,具体公开了基于多模态大模型的视频时间戳事件识别与推理方法。本发明实施例通过对输入视频进行处理,提取视觉信息和文本信息;对视觉信息和文本信息进行交互和融合,生成视频事件语义表示;对视频事件语义表示进行事件识别,获取事件时间戳标记和事件逻辑推理。能够实现视觉和文本等多模态信息的深度融合与语义关联理解,解决了传统方法在模态间语义一致性和特征表达能力不足的问题,实现了多模态特征的深度融合与语义关联的精准理解,且能够将帧级别的时间信息作为视觉编码和文本特征进行视觉文本特征对齐,再进行视频级别建模,解决了传统模型无法直接捕捉到视觉事件发生时的精确时间帧的问题。
-