-
公开(公告)号:CN104537386A
公开(公告)日:2015-04-22
申请号:CN201410677256.6
申请日:2014-11-21
Applicant: 东南大学
CPC classification number: G06T2207/20036
Abstract: 本发明公开了一种基于级联混合高斯形状模型的多姿态图像特征点配准方法。该方法针对任意一种图像特征点定位器的定位结果,本发明中的配准方法能够显著提高其定位精度。本发明中所述的配准方法主要包括以下步骤:一、在多姿态的图像数据库上进行混合高斯形状模型的建模;二、采用一种级联的混合高斯形状模型对特征点进行校准,在每一级中,遍历特征点可能组成的形状,通过计算该形状对应的似然概率的阈值来判断出错误定位的特征点;三、采用正确特征点的高斯分布条件概率进行错误特征点的纠错。
-
公开(公告)号:CN104050963A
公开(公告)日:2014-09-17
申请号:CN201410283309.6
申请日:2014-06-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于情感数据场的连续语音情感预测算法,首先根据数据场理论,利用情感数据场中势函数建立不同语音情感特征向量之间的联系;其次,在短时间上选取多个语音情感特征向量,用群体智能算法在情感数据场中研究各语音情感特征向量的变化趋势,将这种变化趋势作为语音情感的识别结果。实验表明,本发明的方法可以有效的解决语音情感识别中存在的情感跟踪延迟问题并有效预测说话人情感的变化。
-
公开(公告)号:CN103531208A
公开(公告)日:2014-01-22
申请号:CN201310534910.3
申请日:2013-11-01
Applicant: 东南大学
IPC: G10L25/63
Abstract: 本发明公开了一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率;回忆正确率的先验概率,与调节系数共同构成帧的重要性权重;基于各帧的重要性权重,计算语音段的判决融合权重;各语音段进行情感识别;根据判决融合权重,进行情感融合,获得最终的识别结果。本发明的方法可以有效地提高与文本相关的说话人识别系统的识别正确率,此外系统对噪声也具有较好的鲁棒性。
-
公开(公告)号:CN101887721A
公开(公告)日:2010-11-17
申请号:CN201010230506.3
申请日:2010-07-19
Applicant: 东南大学
Abstract: 本发明公布了一种基于心电信号与语音信号的双模态情感识别方法,所述方法包括如下步骤:(1)情感数据的采集;(2)情感特征的提取;(3)判决层融合算法:(3-1)待识别的情感类别包括烦躁、喜悦和平静三个类别,对语音与心电分类器均采用高斯混合模型(GMM)来进行每种情感类别的概率模型的训练,高斯混合模型是成员密度的加权和;(4)特征层融合算法:(4-1)采用PCA方法进行语音特征与心电特征的融合与降维;(4-2)采用(3-1)中所述的高斯混合模型进行训练与识别。本发明融合心电和语音进行双模态情感识别;提取心电的混沌特征进行情感识别;识别性能高。
-
公开(公告)号:CN115601583A
公开(公告)日:2023-01-13
申请号:CN202211090432.7
申请日:2022-09-07
Applicant: 东南大学(CN)
IPC: G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种双通道注意力机制的深度卷积网络目标识别方法,包括以下步骤,构建卷积神经网络,以单个样本对作为输入,提取高维特征图;分别构建空间注意力与通道注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算空间维度上特征像素间的相关性并与原始特征逐元相加;将空间与通道注意力机制模块的输出在通道维度上堆叠,获得模型最终的特征表示;构建训练样本对,同类目标通过数据增强扩充规模,不同类目标直接成对;计算交叉熵损失通过随机梯度下降学习网络参数,得到具有区分目标类别能力的神经网络模型。通过本发明可以在单样本场景下以及对于未参与训练的目标类别提升视觉目标图像识别的准确率。
-
公开(公告)号:CN104156628B
公开(公告)日:2017-05-31
申请号:CN201410437529.X
申请日:2014-08-29
Applicant: 东南大学
Abstract: 本发明公开了一种基于多核学习判别分析的舰船辐射信号识别方法,对舰船辐射信号样本依次进行预处理、听觉模型特征提取、维数约简、分类器分类判决。其中在维数约简阶段,使用了基于多核学习判别分析的方法,利用交替优化,分别对核映射系数和线性多核组合系数,在用图嵌入形式表示的核判别分析优化目标下,进行优化运算。与现有方法相比,本发明的方法在舰船辐射信号的识别方面,能够有效地提升系统的识别性能。
-
公开(公告)号:CN103854645B
公开(公告)日:2016-08-24
申请号:CN201410078383.4
申请日:2014-03-05
Applicant: 东南大学
IPC: G10L15/08 , G10L21/003 , G10L25/63
Abstract: 本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法,对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段,使用了基于说话人惩罚的图嵌入学习方法,利用说话人标签信息,分别针对属于同一类情感类别但说话人不同,以及属于同一说话人但分属于不同情感类别的语音信号样本对,在图嵌入理论的基础上利用已有理论,进行组合优化运算。与现有方法相比,本发明的方法在独立于说话人的语音情感识别中,能够有效地提升系统的识别性能。
-
公开(公告)号:CN102779510B
公开(公告)日:2013-12-18
申请号:CN201210250571.1
申请日:2012-07-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。本发明首先对语音进行特征提取,并且计算每个特征的模糊熵,当该特征的模糊熵小于预先设定好的阈值时,则认为该特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型;最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征,从而提高语音情感识别率。
-
公开(公告)号:CN102779510A
公开(公告)日:2012-11-14
申请号:CN201210250571.1
申请日:2012-07-19
Applicant: 东南大学
Abstract: 本发明公开了一种基于特征空间自适应投影的语音情感识别方法,属于语音信号处理领域。本发明首先对语音进行特征提取,并且计算每个特征的模糊熵,当该特征的模糊熵小于预先设定好的阈值时,则认为该特征与一般模型的差异较大,应该进行投影压缩,即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化,从而训练出对于每一类情感所对应的高斯混合模型;最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征,从而提高语音情感识别率。
-
公开(公告)号:CN115272652A
公开(公告)日:2022-11-01
申请号:CN202210902379.X
申请日:2022-07-29
Applicant: 东南大学
IPC: G06V10/22 , G06V10/25 , G06V10/764 , G06V10/766 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多元回归和自适应焦点损失的密集物体图像检测方法,先使用图像采集设备从超市货架场景中采集原始图像,并对采集的图像数据进行预处理与增强;对不同类型以及不同检测难度的商品目标进行标注,并按照预设比例进行数据集划分;构建基于RetinaNet的深度学习模型作为基线模型,输入商品图像进行训练;建立多元回归网络和NMS‑Score机制,根据前置网络提取的特征生成目标边界框的信息和目标类别;使用候选框与真实值的偏差生成NMS‑Score作为NMS排序依据,并引入自适应焦点损失来训练模型,根据训练后的商品检测模型,检测出对应商品的位置。本发明通过多元回归网络、NMS‑Score机制和自适应焦点损失来提高密集场景下零售商品检测的准确率,具有良好的应用前景。
-
-
-
-
-
-
-
-
-