-
公开(公告)号:CN119889338A
公开(公告)日:2025-04-25
申请号:CN202411912274.8
申请日:2024-12-24
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明公开了基于多尺度空间信息与频谱特征融合的多通道语音增强方法,根据频谱特性将不同频谱成分重新组合,提取通道内、通道间以及全通道的特征模式;并对上述特征进行融合,创建统一深度特征;引入局部特征提取模块增强当前帧特征权重并通过特征注意力机制融合不同尺度下的特征;引入分解注意力机制,在多个分解空间融合编码器和解码器输出,让细节特征也能被深度模块使用。本发明将空间特征和频谱特征相结合,利用特征融合方法创建统一的特征表达。通过注意力模块自适应学习空间特征中所包含的模式并加以利用,而非拟合具有物理含义的方向性特征,能够更灵活地适应不同的场景,具有良好的应用前景。
-
公开(公告)号:CN109285562A
公开(公告)日:2019-01-29
申请号:CN201811135064.7
申请日:2018-09-28
Applicant: 东南大学
Abstract: 本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
-
公开(公告)号:CN109285562B
公开(公告)日:2022-09-23
申请号:CN201811135064.7
申请日:2018-09-28
Applicant: 东南大学
Abstract: 本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
-
-