基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法

    公开(公告)号:CN109935243A

    公开(公告)日:2019-06-25

    申请号:CN201910138946.7

    申请日:2019-02-25

    Applicant: 重庆大学

    Abstract: 本发明公开一种基于VTLP(Vocal Tract Length Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题,本发明首先通过语音采集设备获取初始语音,然后通过VTLP算法得到不同频谱特征的语音,然后通过傅里叶变换得到有效的频谱图,然后将频谱原图进行多尺度缩放,将频谱输入图经过设计的时频域卷积层,分别从谱图中获取时域和频域的低层次特征,将时域和频域信息进行特征级融合,然后将融合特征送入下一层空洞卷积层,从融合特征中提取句子级细化特征,最后将情感概率值最大的类别输出,根据分类评价方式,生成语音情感分类准确度。

Patent Agency Ranking