海量音视频情感识别系统
    21.
    发明授权

    公开(公告)号:CN112633263B

    公开(公告)日:2021-06-08

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    自动抑郁检测方法、装置、设备

    公开(公告)号:CN112331337B

    公开(公告)日:2021-04-16

    申请号:CN202110001070.9

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

    海量音视频情感识别系统
    24.
    发明公开

    公开(公告)号:CN112633263A

    公开(公告)日:2021-04-09

    申请号:CN202110253708.8

    申请日:2021-03-09

    Abstract: 本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

    基于多尺度时空特征神经网络的微表情识别方法

    公开(公告)号:CN112560810A

    公开(公告)日:2021-03-26

    申请号:CN202110188615.1

    申请日:2021-02-19

    Abstract: 本申请涉及基于多尺度时空特征神经网络的微表情识别方法,可以从微表情视频帧中学习到微表情的空间域与时间域的特征,将两者特征结合形成更加鲁棒的微表情特征。同时针对微表情发生在面部局部区域,将微表情产生的活跃的局部地区与全局区域相结合用于微表情识别。解决了微表情连续帧之间特征提取不足,以及微表情在局部区域较为活跃的问题。本发明对自发式微表情的准确率,相比于其它方法,具有一定的优势,78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

    自动抑郁检测方法、装置、设备

    公开(公告)号:CN112331337A

    公开(公告)日:2021-02-05

    申请号:CN202110001070.9

    申请日:2021-01-04

    Abstract: 本申请实施例涉及数据处理领域,具体涉及一种自动抑郁检测方法、装置、设备,旨在提高抑郁检测的准确率。所述方法包括:输入音视频文件,音视频文件中包含音频和视频这两种模态的原始数据,对音频文件和视频文件进行分段处理以及特征提取,得到多段音频段水平特征和视频段水平特征,利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征,对上述段水平特征进行注意力计算,得到视频注意力音频特征和音频注意力视频特征,将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示,将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

    一种语音数据的编码及解码方法

    公开(公告)号:CN103247293B

    公开(公告)日:2015-04-08

    申请号:CN201310176701.6

    申请日:2013-05-14

    Abstract: 本发明提供了一种语音数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化;对量化后的各种语音参数进行编码,生成语音数据包。该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值等参数,通过上述参数对激励参数和能量变化轨迹进行预测,最后通过声码器合成语音。本发明可以在极低编码速率的情况下,保持较高的语音音质。

    基于微表情、肢体动作和语音的多模态情感识别方法

    公开(公告)号:CN113469153A

    公开(公告)日:2021-10-01

    申请号:CN202111033403.2

    申请日:2021-09-03

    Abstract: 本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法,包括:第一步输入受试者接收某种信号的刺激的面部视频,对微表情进行识别;第二步输入受试者接收某种信号的刺激的身体视频,对肢体动作进行识别;第三步输入受试者接收某种信号的刺激的音频信号,对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合,判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合,更准确的预测出受试者的情感状态。本发明的有益效果是:相较于现有技术,本发明可以更加准确的识别出人的真实情感。

    基于多尺度时空特征神经网络的微表情识别方法

    公开(公告)号:CN112560810B

    公开(公告)日:2021-07-02

    申请号:CN202110188615.1

    申请日:2021-02-19

    Abstract: 本申请涉及基于多尺度时空特征神经网络的微表情识别方法,可以从微表情视频帧中学习到微表情的空间域与时间域的特征,将两者特征结合形成更加鲁棒的微表情特征。同时针对微表情发生在面部局部区域,将微表情产生的活跃的局部地区与全局区域相结合用于微表情识别。解决了微表情连续帧之间特征提取不足,以及微表情在局部区域较为活跃的问题。本发明对自发式微表情的准确率,相比于其它方法,具有一定的优势,78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

    一种生理信号预测方法
    30.
    发明授权

    公开(公告)号:CN112580612B

    公开(公告)日:2021-06-08

    申请号:CN202110196564.7

    申请日:2021-02-22

    Abstract: 本申请涉及一种生理信号预测方法,包括:采集视频文件,视频文件中包含有长时视频,视频的文件内容含有单个人的面部和真实生理信号数据;将单个长时视频分割成多段短时视频片段,每段短时视频片段具有固定帧数,并且每段短时视频片段对应一个真实生理信号标签;利用所述短时视频片段的每一帧,提取生理信号识别的感兴趣区域特征,形成单帧感兴趣区域特征;对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接,形成多帧视频感兴趣区域特征,将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间,形成包含时间和空间信息的时空图;将所述时空图输入到深度学习模型中进行训练,利用训练好的深度学习模型预测生理信号参数。

Patent Agency Ranking