-
公开(公告)号:CN113555038B
公开(公告)日:2023-12-29
申请号:CN202110758039.X
申请日:2021-07-05
Applicant: 东南大学
IPC: G10L25/63 , G10L25/51 , G10L25/30 , G10L25/24 , G10L25/03 , G10L17/02 , G10L17/18 , G06F18/213 , G06F18/241 , G06N3/088 , G06N3/094 , G06N3/0464 , G06N3/048
Abstract: 本发明公开了一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统,对情感语音数据进行预处理,获得高质量的情感语音样本,从所述情感语音样本中提取出单通道梅尔频谱作为时频特征,对所述时频特征经过深度卷积神经网络,得到语音情感的局部特征和全局特征,作为分层特征,建立无监督的深度领域对抗神经网络,将有标签的训练数据和无标签的测试数据提取分层特征后作为输入,对深度领域对抗网络进行训练,将待识别的情感语音数据预处理后输入训练好的深度领域对抗网络,得到语音情(56)对比文件Xinran Zhang etc..A speech emotionrecognition method in cross-languagescorpus based on feature adaptation《.2015International Conference on InformationTechnology Systems and Innovation(ICITSI)》.2016,正文1-4页.Paul Pu Liang etc..Multimodal Local-Global Ranking Fusion for EmotionRecognition《.2018 Association forComputing Machinery》.2018,正文472-476页.
-
公开(公告)号:CN117275523A
公开(公告)日:2023-12-22
申请号:CN202311349584.9
申请日:2023-10-18
Applicant: 东南大学
Abstract: 本发明公开了一种基于时序情感信息建模的语音情感识别方法及系统,首先通过特征提取模块获取语音信号的对数短时离散傅里叶变换谱特征,鲁棒性更好,然后通过卷积模块进行时序编码并特征降维,循环神经网络模块进行长程依赖关系建模,Transformer编码器模块进行注意力增强,获取与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块判别出语音样本的情绪类别,本发明泛化性好、识别率更高。
-
公开(公告)号:CN115830682A
公开(公告)日:2023-03-21
申请号:CN202211562229.5
申请日:2022-12-07
Applicant: 东南大学
IPC: G06V40/16
Abstract: 本发明公开了一种基于样本自适应的微表情放大方法及装置,包括:(1)获取微表情数据库;(2)将微表情视频转换为微表情帧序列,并对序列长度进行统一;(3)构建微表情放大模型,所述微表情放大模型包括:强度提取模块,强度变化曲线构造模块,强度校正模块,人脸增强模块,微表情特征整合模块,(4)将统一长度的微表情帧序列和对应的微表情类别标签作为样本输入微表情放大模型进行训练,训练时采用的损失函数包括微表情特征向量交叉熵损失、强度提取的损失和强度校正的损失;(5)将待放大的微表情视频进行长度统一后输入训练好的微表情放大模型,得到放大后的微表情特征向量。本发明可以根据每个微表情视频进行自适应放大,效果更好。
-
公开(公告)号:CN115512721A
公开(公告)日:2022-12-23
申请号:CN202211010176.6
申请日:2022-08-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库;(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本,分别作为源域样本和目标域样本,并提样本的语谱图特征;(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型,此模型以卷积神经网络为主干网络,通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练,从而消除不同领域间的分布差异;(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型;(5)提取待识别语音语谱图特征,输入训练好的模型,识别出情感类别。本发明识别准确率更高。
-
公开(公告)号:CN115497508A
公开(公告)日:2022-12-20
申请号:CN202211010154.X
申请日:2022-08-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于CDAR模型的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,(2)从训练数据库和测试数据库中提取具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;(3)建立协同分布适配回归CDAR模型,(4)利用交替方向法和非精确增广拉格朗日乘子求解CDAR模型,得到投影矩阵U的最优值(5)对于待识别语音,提取IS09特征,并采用学习到的投影得到对应的情感类别。本发明识别准确率更高。
-
公开(公告)号:CN111695427B
公开(公告)日:2022-11-15
申请号:CN202010383157.2
申请日:2020-05-08
Applicant: 东南大学
IPC: G06V40/16
Abstract: 本发明公开了一种基于稀疏共享迁移回归模型的跨库微表情识别架构,架构主要包括基于源域和目标域微表情数据库的特征提取、学习优化一种更加共享的迁移回归模型和针对目标域微表情数据库样本的识别。本发明从均值和协方差矩阵角度来减小源域和目标域的分布差异,将标签的源域和未标签的目标域映射到公共的特征空间,再通过优化稀疏回归系数矩阵对三个时空描述符进行大量的实验。在与其他7种领域自适应的方法进行比较的过程中,证明了所提出发明确实优于另外7种方法。
-
公开(公告)号:CN115171662A
公开(公告)日:2022-10-11
申请号:CN202210748096.4
申请日:2022-06-29
Applicant: 东南大学
Abstract: 本发明公开了一种基于CISF模型的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库:(2)提取训练数据库和测试数据库中具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;(3)建立语料库无关显著性特征选择模型(4)对所述语料库无关显著性特征选择模型进行学习,得到投影矩阵U的最优值(5)对于待识别语音,提取IS09特征,并采用学习到的投影得到对应的情感类别。本发明识别准确率更高。
-
公开(公告)号:CN114898778A
公开(公告)日:2022-08-12
申请号:CN202210534999.2
申请日:2022-05-17
Applicant: 东南大学
Abstract: 本发明公开了一种基于注意力时频网络的语音情感识别方法及系统,本发明首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好,然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性,本发明识别效果更好、识别率更高。
-
公开(公告)号:CN110353675B
公开(公告)日:2022-06-28
申请号:CN201910747637.X
申请日:2019-08-14
Applicant: 东南大学
IPC: A61B5/369 , A61B5/16 , G06V10/764 , G06V10/82 , G06V10/774 , G06V10/80
Abstract: 本发明公开了一种基于图片生成的脑电信号情感识别方法,其中方法包括:(1)获取用户处于不同情感时的原始脑电信号;(2)将原始脑电信号去噪后通过带通滤波器提取多个频段信号,并计算每个频段信号的微分熵作为脑电特征;(3)将每个脑电特征数据通过插值生成一张图片,将所有生成的图片串接起来作为脑电特征图片;(4)构建情感判别网络,包括主分支、注意力分支、特征提取单元、图卷积分支和全连接层;(5)将脑电特征图片输入所述情感判别网络进行训练;(6)按照步骤(1)‑(3)提取待识别脑电信号的脑电特征图片,并输入到训练好的情感判别网络,选取概率最大的情感类别作为识别的情感类型。本发明识别准确率更高。
-
公开(公告)号:CN114140843A
公开(公告)日:2022-03-04
申请号:CN202111320516.0
申请日:2021-11-09
Applicant: 东南大学
IPC: G06V40/16 , G06K9/62 , G06V10/774
Abstract: 本发明公开了一种基于样本自修复的跨数据库表情识别方法,包括如下步骤:(1)获取两个表情数据库,分别作为训练数据库和测试数据库;(2)从训练数据库和测试数据库中的表情图片中提取出灰度人脸图像,再经过特征提取网络提取人脸表情特征;(3)建立离群感知模型;(4)建立离群修复模型;(5)建立特征转移模型;(6)将得到的特征向量经过一个全连接层,在全连接层后添加softmax层,计算加权交叉熵以压制离群数据;(7)对于训练数据库表情,按照步骤(2)~(6)训练得到样本自修复网络;(8)对于待识别的测试数据库表情,按照步骤(2)、(5)、(6),输出即为识别出的表情类别。本发明识别准确率更高,更方便。
-
-
-
-
-
-
-
-
-