一种基于IP3S模型的语音和视频融合的情绪状态识别方法

    公开(公告)号:CN119132345A

    公开(公告)日:2024-12-13

    申请号:CN202411358387.8

    申请日:2024-09-27

    Applicant: 东北大学

    Abstract: 本发明属于人工智能技术领域,涉及一种基于IP3S模型的语音和视频融合的情绪状态识别方法。包括:第一步:建立改进的共享私有子空间分离模型IP3S(Improved Private–Shared Subspaces);第二步:基于IP3S模型的语音和视频融合的情绪状态识别。本发明探讨多模态情绪状态识别中的语音和视频特征融合问题,生成多模态情绪状态识别模型。本发明首先建立了语音和视频特征提取模型,分别提取语音和视频特征,然后基于改进的共享私有子空间分离模型IP3S模型,将两种特征进行融合,并搭建情绪状态识别分类器进行情绪状态识别,可以有效解决语音和视频融合过程中存在的模态间差异过大的问题,从而提高情绪状态识别的准确率。

Patent Agency Ranking