一种基于时域卷积网络的多模态情感识别方法

    公开(公告)号:CN112784730B

    公开(公告)日:2022-03-29

    申请号:CN202110072249.3

    申请日:2021-01-20

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于时域卷积网络的多模态情感识别方法,对音视频样本中的视频模态数据间隔采样并进行人脸检测与关键点定位,得到灰度人脸图像序列;进行短时傅里叶变换并通过梅尔滤波器组,得到梅尔声谱图;将灰度人脸图像序列和梅尔声谱图分别通过人脸图像卷积网络和声谱图像卷积网络,并进行特征融合;将融合特征序列输入时域卷积网络得到高级特征向量;将高级特征向量通过全连接层以及Softmax回归,得到每一情感类别的预测概率,与实际概率分布之间计算交叉熵损失,并通过反向传播训练整个网络,得到训练好的神经网络模型。本发明能够通过音视频预测情感,同时训练时长短,识别准确率高。

    基于注意力机制的语音情感识别方法

    公开(公告)号:CN109285562A

    公开(公告)日:2019-01-29

    申请号:CN201811135064.7

    申请日:2018-09-28

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。

    一种自适应的听力补偿方法

    公开(公告)号:CN105307093B

    公开(公告)日:2018-08-21

    申请号:CN201510835800.X

    申请日:2015-11-26

    Applicant: 东南大学

    Abstract: 本发明公开了一种自适应的听力补偿方法,本发明包括以下步骤:首先利用gammatone滤波器组对输入信号进行多通道分解,然后根据通道内信号的动态范围以及听损患者的听觉范围确定补偿方法,若通道信号经线性增益处理后仍在患者的听觉范围内则使用线性放大进行听力补偿以减小畸变,否则使用动态范围压缩进行补偿以增加可听度。另外,为减小动态范围压缩带来的信号畸变,提高噪声环境下输出信号的信噪比,采用自适应压缩方法进行听力补偿,使压缩比尽量接近于1。本发明相比已有的听力补偿方法,本发明补偿后的语音可懂度更高,具有很强的实用性。

    一种数字助听器的自适应验配方法

    公开(公告)号:CN106303874A

    公开(公告)日:2017-01-04

    申请号:CN201610974157.3

    申请日:2016-10-28

    Applicant: 东南大学

    CPC classification number: H04R25/50 H04R25/70 H04R2225/43

    Abstract: 本发明公开了一种数字助听器中自适应验配方法。传统的助听器验配过程离不开听力专家,验配的结果好坏直接取决于听力专家的专业水平,此外,对于发展中国家而言,相当一部分地区的医疗条件达不到验配标准,利用本方法可以有效地实现助听器的自适应验配,即脱离验配专家的助听器验配过程。本发明以二维高斯分布的求和形式作为验配模型,以交互式进化计算作为寻优方法,结合本发明设计的人机交互接口,通过30代以内的人机交互即可确定数字助听器的验配模型。实验结果表明,本发明提出的方法可以有效地实现数字助听器的自适应验配,摆脱了听力专家对于数字助听器验配过程的限制。

Patent Agency Ranking