一种基于多模态融合的情感视频内容分析方法

    公开(公告)号:CN117765449A

    公开(公告)日:2024-03-26

    申请号:CN202410051773.6

    申请日:2024-01-12

    Abstract: 本发明属于模式识别技术领域,具体涉及一种基于多模态融合的情感视频内容分析方法;包括:获取训练情感视频并从训练情感视频中提取多模态特征;多模态特征包括视频深度特征和音频特征;对视频深度特征进行全局编码和时序编码,得到视频全局特征和视频局部特征;对训练情感视频进行运动编码,得到视频嵌入特征;拼接视频全局特征、视频局部特征和视频嵌入特征,得到视频拼接特征;对音频特征进行全局编码和时序编码,得到音频全局特征和音频局部特征;拼接音频全局特征和音频局部特征,得到音频拼接特征;融合视频拼接特征和音频拼接特征,得到融合特征;对融合特征进行分类处理,得到视频的情感分类结果;本发明的模型分类结果精度高。

    一种基于多模态融合和Transformer网络的视频情感内容分析方法

    公开(公告)号:CN116453022A

    公开(公告)日:2023-07-18

    申请号:CN202310434327.9

    申请日:2023-04-21

    Abstract: 本发明请求保护一种基于多模态融合和Transformer网络的视频情感内容分析方法,涉及情感计算和视频分析领域,包括以下步骤:1)音频和视频信号的分离,形成视频和音频两个数据库;2)对于音频和视频数据库,使用工具并通过多个深度学习模型来提取音频和视频特征;3)对于提取到的音频和视频特征,分别将它们投影到模态特定和模态不变两个子空间,在模态特定子空间当中学习每个模态独特的信息,在模态不变子空间中学习模态之间共享的信息;4)得到每个模态不同的模态表示过后,使用Transformer结构对不同模态的特征进行融合,形成多模态融合向量;5)使用多层感知机模型完成特征到情感空间的映射,以多模态融合向量作为输入完成分类或者回归任务。

Patent Agency Ranking