-
公开(公告)号:CN118152919A
公开(公告)日:2024-06-07
申请号:CN202410049654.7
申请日:2024-01-12
Applicant: 北京工业大学
IPC: G06F18/2415 , G06F18/2431 , G06F18/25 , G06F40/205 , G06F40/284 , G10L25/18 , G10L25/30 , G10L25/45 , G10L25/63 , G10L21/055 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提出了一种基于多层次交互的多模态情感识别方法,属于深度学习、情感识别领域。很多多模态情感识别方法试图在多个粒度级别上实现交互,但是不同的模态通常在时间和语义上是不对齐的,因此很难实现细粒度级别的交互。本发明提出一种基于多层次交互的多模态情感识别方法。首先,该方法将语音分成固定长度的片段,并通过帧级别交互将片段中的帧与相应的文本单词进行对齐。然后通过词级别交互Transformer,从文本模态和语音模态学习词级别情感嵌入。最后,引入句子级别交互Transformer进行模态融合。该方法通过多层次交互,充分挖掘语音和文本在不同细粒度级别的情感相关性,提高了情感识别的性能。