-
公开(公告)号:CN112784798B
公开(公告)日:2022-11-08
申请号:CN202110135196.5
申请日:2021-02-01
Applicant: 东南大学
Abstract: 本发明公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明可以实现提升对于对音视频中人脸情感识别的准确率。
-
公开(公告)号:CN112784798A
公开(公告)日:2021-05-11
申请号:CN202110135196.5
申请日:2021-02-01
Applicant: 东南大学
Abstract: 本发明公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明可以实现提升对于对音视频中人脸情感识别的准确率。
-
公开(公告)号:CN105609116B
公开(公告)日:2019-03-05
申请号:CN201510976875.X
申请日:2015-12-23
Applicant: 东南大学
Abstract: 本发明公开了一种语音情感维度区域的自动识别方法,属于语音识别技术领域。我们采用了一种特征空间重构的方法进行分类器的优化。第一,我们提取和优化基本声学特征作为区分情感区域的基准;第二,我们采用特征空间重构的方法将多个情感特征空间分解和配对,分别采用LDA和PCA模块级联的方法,提高目标类之间的离散程度;第三,我们提出两种情感区域的分割方法,即四个区域和十六个区域的分割方法,进行复合情感的分解,取代传统的基本情感类型,通过相关计算来融合分类器输出,进行情感区域的识别,获得了更高的识别效果。
-
公开(公告)号:CN108175426A
公开(公告)日:2018-06-19
申请号:CN201711315604.5
申请日:2017-12-11
Applicant: 东南大学
IPC: A61B5/16
Abstract: 本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法,首先在连续语音段落中,利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程,对训练样本进行建模,得到说话人是否说谎的高阶统计信息;接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后,将这两个基本网络单元由下至上搭建而成;并在验证数据集上,基于最小二乘回归微调递归神经网络的参数;利用建立的网络,对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果,且具有相对较高的识别率,该方法对评测者的专业知识和技能要求不高,有较高的测试效率。
-
公开(公告)号:CN105609116A
公开(公告)日:2016-05-25
申请号:CN201510976875.X
申请日:2015-12-23
Applicant: 东南大学
Abstract: 本发明公开了一种语音情感维度区域的自动识别方法,属于语音识别技术领域。我们采用了一种特征空间重构的方法进行分类器的优化。第一,我们提取和优化基本声学特征作为区分情感区域的基准;第二,我们采用特征空间重构的方法将多个情感特征空间分解和配对,分别采用LDA和PCA模块级联的方法,提高目标类之间的离散程度;第三,我们提出两种情感区域的分割方法,即四个区域和十六个区域的分割方法,进行复合情感的分解,取代传统的基本情感类型,通过相关计算来融合分类器输出,进行情感区域的识别,获得了更高的识别效果。
-
公开(公告)号:CN103531198B
公开(公告)日:2016-03-23
申请号:CN201310534319.8
申请日:2013-11-01
Applicant: 东南大学
Abstract: 本发明公开了一种基于伪说话人聚类的语音情感特征规整化方法,适合应用于非特定说话人情感识别。本发明首先提取出能够反映说话人信息的特征空间;接着在此特征空间内进行模糊聚类,自动获得情感语料中的说话人的身份信息,据此信息进行“伪说话人”分组,每一条样本按照其相似程度划分到不同的伪说话人分组中;而后根据每条样本的伪说话人组别信息,进行情感特征的规整化;最终在规整化后的数据中加入相应组别的模糊隶属度信息。通过上述处理过程,使得情感特征空间中的样本分布更加清晰有效,降低了大量说话人带来的特征差异,增强了说话人鲁棒性。
-
公开(公告)号:CN103679144A
公开(公告)日:2014-03-26
申请号:CN201310652771.4
申请日:2013-12-05
Applicant: 东南大学
IPC: G06K9/00
Abstract: 本发明公布了一种基于计算机视觉的复杂环境下果蔬识别方法,本发明包括以下步骤:首先,获取待识别果蔬图像;其次,将获取到的果蔬图像进行预处理,预处理后的图像被分割为果蔬区域和背景区域;提取预处理后的果蔬图像特征,其中提取的图像特征为颜色特征和纹理特征;然后,采用自适应加权方法对果蔬特征进行融合;最后,采用最近邻分类算法对果蔬进行识别。本发明相比已有的果蔬识别系统,算法复杂度低,识别率高,具有很强的使用性,可以有效的应用于日常生活中。
-
公开(公告)号:CN102497643A
公开(公告)日:2012-06-13
申请号:CN201110415016.5
申请日:2011-12-13
Applicant: 东南大学
Abstract: 本发明公开了一种认知无线电功率控制方法是以D.Goodman提出的非合作博弈功率控制算法为基础,对收益函数进行改进,提供一种新的基于非合作博弈功率控制算法,同时为了提高所提功控算法的搜索精度,本发明又提出一种改进的混合蛙跳算法。本发明的认知无线电功率控制方法计算精度更高,实现对用户发射功率的有效控制,能明显提升系统性能。
-
公开(公告)号:CN102436809A
公开(公告)日:2012-05-02
申请号:CN201110321538.9
申请日:2011-10-21
Applicant: 东南大学
Abstract: 本发明涉及了一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减(SS)降噪声技术和倒谱均值规整(CMN)降噪声技术进行改进,同时结合等同于连续状态隐马尔可夫模型(HMM)的概率尺度DP识别方法,提出了一种在英语网考系统中非特定人的网络语音识别方案,并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法,将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合,大大降低了环境噪声对识别系统的影响。同时,本方案在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围和识别精度得到了提高。
-
-
-
-
-
-
-
-
-