-
公开(公告)号:CN117636199A
公开(公告)日:2024-03-01
申请号:CN202311307783.3
申请日:2023-10-10
Applicant: 北京航空航天大学
IPC: G06V20/40 , G06V10/771 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/08 , G06F16/783
Abstract: 本发明公开了基于神经架构搜索的轻量化多模态视频事件解析方法,包括:基于神经架构搜索网络构建多模态视频事件解析模型,包括跨模态时序融合单元以及单模态时序融合单元;将视频和音频数据输入至特征提取网络,获得视频多尺度编码特征向量和音频多尺度编码特征向量;将视频多尺度编码特征向量和音频多尺度编码特征向量分别输入至对应的单模态时序融合单元、跨模态时序融合单元,获得视频单模态融合特征向量、音频单模态融合特征向量、跨模态融合特征向量;依据视频单模态融合特征向量、音频单模态融合特征向量和跨模态融合特征向量,获得多模态视频事件解析结果。本发明采用轻量化多模态视频事件解析模型,降低了模型计算量,提高了计算效率。