-
公开(公告)号:CN118427394A
公开(公告)日:2024-08-02
申请号:CN202410539519.0
申请日:2024-04-30
Applicant: 重庆邮电大学
IPC: G06F16/783 , G06F18/25 , G06N3/0464 , G06N3/08
Abstract: 本发明属于视听事件定位技术领域,具体涉及一种基于跨模态关系感知融合的视听事件识别方法;包括:提取待识别视频的视觉特征和音频特征;将两种特征输入到通道注意力模块中进行处理,得到通道注意力图;采用空间注意力模块对通道注意力图和音频特征进行处理,得到空间注意力图;融合视觉特征和两种空间注意力图,得到增强视觉特征;采用关系感知模块分别对增强视觉特征和音频特征进行处理,得到跨模态关系感知视觉特征和跨模态关系感知音频特征;对两种跨模态关系感知特征进行交互融合,将融合得到的视音融合特征输入到类别分类器中进行处理,得到视听事件识别结果;本发明可有效地实现两种模态数据间的交互,进而实现更加精准的视听事件识别。
-
公开(公告)号:CN116797976A
公开(公告)日:2023-09-22
申请号:CN202310773111.5
申请日:2023-06-28
Applicant: 重庆邮电大学
Abstract: 本发明属于视频时间识别技术领域,具体涉及一种基于视听模态融合的视频事件识别方法;该方法包括:获取待识别的视频并对其进行划分,得到视觉信息和音频信息;对视觉信息和音频信息分别进行特征提取,得到视频特征和音频特征;根据视觉特征和音频特征采用音频调节视觉信息注意模块对视觉特征进行增强,得到增强的视觉特征;将音频特征和增强后的视觉特征输入到时间注意力模块中进行处理,得到时间权重;将音频特征和增强后的视觉特征输入到通道注意力模块中进行处理,得到通道权重;采用融合注意力模块对时间权重和通道权重进行处理,得到视频事件识别结果本发明可以更好的在音视频双模态的情况下进行事件的识别。
-