-
公开(公告)号:CN116189039A
公开(公告)日:2023-05-30
申请号:CN202211676172.1
申请日:2022-12-26
Applicant: 中国科学院信息工程研究所
IPC: G06V20/40 , G06V10/764 , G06V10/77 , G06V10/80 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明提出一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统,具体为:设计了跨模态融合模块,先提取文本信息,再融合音频信息,最后加入视觉信息,从而得到模态融合特征;对整个视频提取全局的音频特征,以最大程度地保留视频整体音调变化等声学特征;最后将模态融合特征和全局音频特征进行融合。本发明一是通过顺序融合的方法,既充分提取了核心模态(文本、音频)的特征,又减少了视觉模态中噪声的影响;二是使用视频全局的音频信息加强对视频情感的获取,来提升情感分类的准确性。