-
公开(公告)号:CN118380020B
公开(公告)日:2024-11-08
申请号:CN202410808613.1
申请日:2024-06-21
Applicant: 吉林大学
IPC: G10L25/63 , G10L25/24 , G10L25/30 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06V20/40
Abstract: 本发明公开了一种基于多模态的审讯对象情绪变化的识别方法,包括:获取审讯对象审讯的原始音频和原始视频;对原始音频和原始视频分别分割为多个等时长的音频片段和视频片段,并将音频片段和与其时刻对齐的视频片段作为一个片段组,得到多个时刻对齐的片段组;对每个片段组中的音频片段和视频片段分别进行特征提取,得到各片段组的语音特征向量和视频特征向量;采用基于注意力机制的多模态融合方法对同一个片段组的语音特征向量和视频特征向量进行融合,得到每个片段组的融合特征向量;对每个片段组的融合特征向量进行情绪识别,并对相邻两个片段组的情绪识别结果进行对比,得到审讯对象的情绪变化识别结果。
-
公开(公告)号:CN118279805B
公开(公告)日:2024-10-01
申请号:CN202410676287.3
申请日:2024-05-29
Applicant: 吉林大学
IPC: G06V20/40 , G06N3/0455 , G06N3/0464 , G06V10/80 , G06V10/82 , G10L25/63 , G10L25/24
Abstract: 本发明公开了一种基于多模态的远程情感识别方法,涉及语音处理和图像处理技术领域,包括:采集远程人员的实时视频模态数据和实时音频模态数据;对实时视频模态数据和实时音频模态数据预处理获得视频帧序列和原始音频数据;将视频帧序列和原始音频数据分别输入视频特征提取网络和音频特征提取网络,获得视频情感特征和音频情感特征;将视频情感特征和音频情感特征输入注意力计算网络获得音视频跨模态情感特征和视音频跨模态情感特征;将音视频跨模态情感特征和视音频跨模态情感特征融合为双模融合情感特征;将双模融合情感特征输入决策网络获得实时情感分类结果。本发明具有提高情感识别准确率的特点。
-
公开(公告)号:CN118279805A
公开(公告)日:2024-07-02
申请号:CN202410676287.3
申请日:2024-05-29
Applicant: 吉林大学
IPC: G06V20/40 , G06N3/0455 , G06N3/0464 , G06V10/80 , G06V10/82 , G10L25/63 , G10L25/24
Abstract: 本发明公开了一种基于多模态的远程情感识别方法,涉及语音处理和图像处理技术领域,包括:采集远程人员的实时视频模态数据和实时音频模态数据;对实时视频模态数据和实时音频模态数据预处理获得视频帧序列和原始音频数据;将视频帧序列和原始音频数据分别输入视频特征提取网络和音频特征提取网络,获得视频情感特征和音频情感特征;将视频情感特征和音频情感特征输入注意力计算网络获得音视频跨模态情感特征和视音频跨模态情感特征;将音视频跨模态情感特征和视音频跨模态情感特征融合为双模融合情感特征;将双模融合情感特征输入决策网络获得实时情感分类结果。本发明具有提高情感识别准确率的特点。
-
-