一种基于多模态融合和Transformer网络的视频情感内容分析方法

    公开(公告)号:CN116453022A

    公开(公告)日:2023-07-18

    申请号:CN202310434327.9

    申请日:2023-04-21

    Abstract: 本发明请求保护一种基于多模态融合和Transformer网络的视频情感内容分析方法,涉及情感计算和视频分析领域,包括以下步骤:1)音频和视频信号的分离,形成视频和音频两个数据库;2)对于音频和视频数据库,使用工具并通过多个深度学习模型来提取音频和视频特征;3)对于提取到的音频和视频特征,分别将它们投影到模态特定和模态不变两个子空间,在模态特定子空间当中学习每个模态独特的信息,在模态不变子空间中学习模态之间共享的信息;4)得到每个模态不同的模态表示过后,使用Transformer结构对不同模态的特征进行融合,形成多模态融合向量;5)使用多层感知机模型完成特征到情感空间的映射,以多模态融合向量作为输入完成分类或者回归任务。

    一种新型基于信息熵采用池化和高斯上采样的加权特征融合CAM方法

    公开(公告)号:CN118627632A

    公开(公告)日:2024-09-10

    申请号:CN202410689468.X

    申请日:2024-05-30

    Abstract: 本发明为一种新型基于信息熵采用池化和高斯上采样的加权特征融合CAM方法。首先,针对目标层的特征图和梯度矩阵,通过引入池化操作过滤噪声信息,并基于高斯上采样解决图像特征低分辨率问题,以获得激活图的不同尺度激活图;然后,利用图像信息熵求解不同尺度激活图的信息贡献占比,再通过对不同尺度激活图加权平均获得优化的激活图像;最后,将优化的激活图和对应权重加权求和,以输出更加精确、高效的显著图。通过实践与分析可知,本申请的WPG‑CAM方法能够有效消除显著图中的噪声,在综合指标上优于其他CAM方法,能够提供更加精确和更高细粒度的类映射图像。

Patent Agency Ranking