海量音视频情感识别系统
    11.
    发明授权

    公开(公告)号:CN112633263B

    公开(公告)日:2021-06-08

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    海量音视频情感识别系统
    13.
    发明公开

    公开(公告)号:CN112633263A

    公开(公告)日:2021-04-09

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    基于音视频的鲁棒情感建模系统

    公开(公告)号:CN113255800B

    公开(公告)日:2021-10-15

    申请号:CN202110615003.6

    申请日:2021-06-02

    Abstract: 本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

    自然场景下的表情识别方法和装置

    公开(公告)号:CN112580617B

    公开(公告)日:2021-06-18

    申请号:CN202110222926.5

    申请日:2021-03-01

    Abstract: 本申请涉及自然场景下的表情识别方法和装置,具体方法包括:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;再进行向量融合,得到用于训练的面部特征融合向量;将所述面部特征融合向量输入支持向量机做表情分类。

    多模态维度情感识别方法
    16.
    发明授权

    公开(公告)号:CN112560830B

    公开(公告)日:2021-05-25

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    多模态维度情感识别方法
    17.
    发明公开

    公开(公告)号:CN112560830A

    公开(公告)日:2021-03-26

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    基于融合深度特征的微表情识别方法

    公开(公告)号:CN112560812A

    公开(公告)日:2021-03-26

    申请号:CN202110188625.5

    申请日:2021-02-19

    Abstract: 本申请涉及基于融合深度特征的微表情识别方法,包括:输入微表情视频文件,得到仅包含人脸的微表情帧序列;对微表情序列归一化和灰度化,得到微表情预处理序列;掩盖微表情预处理序列中不活跃的区域,得到微表情活跃帧序列;使用光流法对微表情活跃帧序列的相邻帧提取光流,得到光流序列;构建能够提取微表情活跃帧序列特征和光流序列特征的深度神经网络模型,将所述微表情活跃帧序列特征和光流序列特征融合得到用于识别微表情的特征;将微表情活跃帧序列以及光流序列作为深度神经网络模型的输入,对深度神经网络模型进行学习优化;将待测试的视频文件经过上述步骤后,送入学习优化后的深度神经网络模型提取特征进行微表情识别。

    基于微表情、肢体动作和语音的多模态情感识别方法

    公开(公告)号:CN113469153A

    公开(公告)日:2021-10-01

    申请号:CN202111033403.2

    申请日:2021-09-03

    Abstract: 本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法,包括:第一步输入受试者接收某种信号的刺激的面部视频,对微表情进行识别;第二步输入受试者接收某种信号的刺激的身体视频,对肢体动作进行识别;第三步输入受试者接收某种信号的刺激的音频信号,对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合,判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合,更准确的预测出受试者的情感状态。本发明的有益效果是:相较于现有技术,本发明可以更加准确的识别出人的真实情感。

    面向交互场景的自动谎言检测方法、装置、设备及介质

    公开(公告)号:CN112329748A

    公开(公告)日:2021-02-05

    申请号:CN202110001077.0

    申请日:2021-01-04

    Abstract: 本申请实施例涉及一种面向交互场景的自动谎言检测方法、装置、设备及介质,旨在提高自动谎言检测的准确率。所述方法包括:将待测样片分别按照视频、音频和文本这三个模态进行切分,提取出这三个模态的短时特征,将待测样片中每句对话中三个模态的短时特征分别进行融合,得到每句对话对应的三个模态的长时特征,使用自注意力机制对三个模态的长时特征进行融合,得到每句对话的多模态特征,通过图神经网络为每句对话的多模态特征融合交互信息,得到融合交互信息的多模态特征,根据融合交互信息的多模态特征,预测每句对话的谎言水平。

Patent Agency Ranking