-
公开(公告)号:CN116778912A
公开(公告)日:2023-09-19
申请号:CN202310888757.8
申请日:2023-07-19
Applicant: 南京信息工程大学
IPC: G10L15/02 , G10L15/16 , G10L25/30 , G10L25/63 , G06N3/0464 , G06N3/0455 , G06F18/214 , G06F18/241 , G06F18/2415
Abstract: 本发明公开了基于改进视觉Transformer模型的语音特征识别方法及系统,涉及语音特征识别技术领域,方法包括以下步骤:接收原始语音信号,对原始语音信号进行预处理得到语音处理信号;对语音处理信号提取声学特征,得到log‑Mel语谱图;将log‑Mel语谱图输入至预先建立的P2T模块内,得到特征向量;将特征向量输入至预先建立的SparseTransformer网络内,得到输出结果;将输出结果导入预先建立的Softmax分类器后,得到识别结果。
-
公开(公告)号:CN116035577A
公开(公告)日:2023-05-02
申请号:CN202310057960.0
申请日:2023-01-14
Applicant: 南京信息工程大学
IPC: A61B5/16 , A61B5/372 , A61B5/00 , G06F18/241 , G06N3/0464
Abstract: 本发明提供一种结合注意力机制与CRNN的脑电情感识别方法,涉及脑电情感识别领域。该结合注意力机制与CRNN的脑电情感识别方法,首先对输入的原始脑电信号进行基线去除以及分窗切片预处理。然后通过基于空间注意力的卷积神经网络(CNN)提取脑电数据的空间特征,并通过基于自注意力的循环神经网络(RNN)提取出时间序列信息。最后将两者相结合用于跨被试脑电情感识别。实验结果表明该方法能够从原始脑电信号中提取出更有辨识性的特征,在两个公开的脑电数据集DEAP和DREAMER上取得了89.29%和93.81%的平均分类准确率,相较于其他方法来说分类效果有了明显的提高。
-
公开(公告)号:CN115762536A
公开(公告)日:2023-03-07
申请号:CN202211512964.5
申请日:2022-11-25
Applicant: 南京信息工程大学
IPC: G10L17/26 , G06F18/2415 , G06F18/25
Abstract: 本发明公开一种基于桥接Transformer的小样本优化鸟声识别方法,包括获取BTNN鸟声识别网络模型,提取鸟鸣声信号的短时傅里叶变换生成语谱图作为整体网络模型的输入特征;利用桥接Transformer结构对STFT语谱图局部特征与全局特征的信息进行提取及补全融合,获得鸟声特征参数;引入样本损失优化模块SLOBlock,利用单层Transformer编码器的交叉注意机制,对来自主干网络输出特征图进行关系建模,从内部优化网络本身对小样本数据集的训练测试;在Birdsdata数据集和xeno‑canto数据集上进行实验,将优化后的特征输入到Softmax分类器中得到识别结果。本发明通过设计BTNN模型以提升在样本数据稀缺情况下鸟声识别测试的准确率,同时加强对输入语谱图在全局与局部层面上的信息交互,提高对输入特征的提取利用。
-
公开(公告)号:CN116664956A
公开(公告)日:2023-08-29
申请号:CN202310832563.6
申请日:2023-07-08
Applicant: 南京信息工程大学
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了基于多任务自动编码器的图像识别方法及系统,涉及图像识别技术领域,包括以下步骤:接收图像数据集,对图像数据集进行预处理,得到图像处理数据集;将图像处理数据集输入至预先建立的自动编码器内,通过自动编码器提取得到有效的潜在向量;将有效的潜在向量输入至预先建立的深度度量学习网络内进行训练,得到训练后的潜在向量;将训练后的潜在向量进行分类识别,最终得到正常状态和异常状态,从而起到了对病理图像识别的效果;本发明以有效地从病理图像数据中提取有意义的特征,所提方法表明了在潜在表示中处理鉴别信息的可能性。
-
公开(公告)号:CN116072153A
公开(公告)日:2023-05-05
申请号:CN202310049317.3
申请日:2023-02-01
Applicant: 南京信息工程大学
Abstract: 本发明公开了基于卷积神经网络和视觉Transformer的语音情感识别方法,涉及语音情感分类识别技术领域,直接将语音信号转变成log‑Mel谱图特征,降低不同说话者不同风格的影响,避免提取到的特征有很大区别,模型性能受影响,对小数据集进行扩充对模型实现高性能至关重要,同时避免出现过拟合现象,将增强策略直接应用于语音信号中提取的log‑Mel谱图,该方法简单易行且计算成本低,将CNN网络提取谱图中的局部频谱特征和ViT网络捕获长距离特征获得的全局特征进行融合,能够获取更丰富的语音情感特征,并且在多个数据集中均提高了语音情感识别的准确率。
-
公开(公告)号:CN115762533A
公开(公告)日:2023-03-07
申请号:CN202211343564.6
申请日:2022-10-31
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种鸟鸣声分类识别方法及装置,包括:获取鸟鸣声音频数据;对鸟鸣声音频数据进行预处理,得到预处理后的音频数据;对预处理后的音频数据进行傅里叶变换,得到鸟鸣声的语谱图;基于梅尔频率倒谱系数和差分运算得到预处理后的音频数据的MFCC混合特征向量;利用CNN网络处理语谱图,训练后得到局部细粒度频谱特征;利用Transformer编码器网络处理MFCC混合特征向量,训练后得到兼顾上下文的全局序列特征;将局部细粒度频谱特征与全局序列特征拼接融合后通过Softmax分类器得到鸟鸣声的识别分类结果。本发明能够提高鸟声分类识别准确率。
-
-
-
-
-