-
公开(公告)号:CN115019833A
公开(公告)日:2022-09-06
申请号:CN202210852485.1
申请日:2022-07-20
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明提供一种基于时频特征和全局注意力的语音情感识别方法及系统,涉及语音信号处理与模式识别技术领域,该方法通过提取三维对数梅尔谱图的时间特征和频率特征,并进行分析处理,以充分利用语音信号的静态特征和动态特征,以及静态特征和动态特征之间的通道联系,得到更深层次的特征联系,丰富了特征维度;并且,提取时间维度和空间(频率)维度数据,将其进行融合;利用空间特征提取模块和全局上下文注意力模块对时间‑频率特征进行分析,充分利用语音信号所包含的空间特征和时间特征,并对融合后的特征进行通道间的特征进行分析,其分析的特征更为全面,从而可以提高情感识别结果的准确率。
-
公开(公告)号:CN115881164A
公开(公告)日:2023-03-31
申请号:CN202211490561.5
申请日:2022-11-25
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明公开了一种语音情感识别方法、系统、电子设备及计算机可读存储介质,属于语音信号处理与模式识别技术领域。包括获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。能够避免在输入到神经网络中时丢失时间信息,充分提取和处理时序特征;解决了现有技术中存在“有较好的运用语音的情感声学特征,尤其是时间序列的特征,出现梯度消失和信息损失”的问题。
-
公开(公告)号:CN115831099A
公开(公告)日:2023-03-21
申请号:CN202211509675.X
申请日:2022-11-29
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/51 , G06N3/048 , G06F18/214 , G06F18/24 , G06N3/08
Abstract: 本公开提供了一种基于残差注意力网络的语音鉴伪方法及系统,所述方案包括:获取待检测的音频数据,并进行相应预处理;对预处理后的音频数据进行特征提取,并对提取的语音特征数据进行分针处理,获得固定帧长的语音信号特征数据;基于所述语音信号特征数据,利用预先训练的残差注意网络模型,获得增强后的特征数据;其中,所述残差注意网络模型包括顺序连接的卷积模块、多尺度残差模块、收缩激励单元、注意力池化模块以及全连接层;将增强后的特征数据输入预先训练的分类器中,获得语音鉴伪结果。
-
公开(公告)号:CN115019833B
公开(公告)日:2024-09-17
申请号:CN202210852485.1
申请日:2022-07-20
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明提供一种基于时频特征和全局注意力的语音情感识别方法及系统,涉及语音信号处理与模式识别技术领域,该方法通过提取三维对数梅尔谱图的时间特征和频率特征,并进行分析处理,以充分利用语音信号的静态特征和动态特征,以及静态特征和动态特征之间的通道联系,得到更深层次的特征联系,丰富了特征维度;并且,提取时间维度和空间(频率)维度数据,将其进行融合;利用空间特征提取模块和全局上下文注意力模块对时间‑频率特征进行分析,充分利用语音信号所包含的空间特征和时间特征,并对融合后的特征进行通道间的特征进行分析,其分析的特征更为全面,从而可以提高情感识别结果的准确率。
-
公开(公告)号:CN115565538A
公开(公告)日:2023-01-03
申请号:CN202211119112.X
申请日:2022-09-13
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学
Abstract: 本发明公开了基于单分类多尺度残差网络的语音鉴伪方法及系统;其中所述方法,包括:获取待鉴别的语音数据;对语音数据进行分帧加窗处理;对分帧加窗处理后的语音数据进行特征提取操作;将提取的特征输入到训练后的多尺度残差神经网络模型中,生成置信度分数,根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音;其中,训练后的多尺度残差神经网络模型,使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。
-
-
-
-