一种基于师生模型的多任务约束端到端含噪语音情感识别方法

    公开(公告)号:CN119170055A

    公开(公告)日:2024-12-20

    申请号:CN202410951511.5

    申请日:2024-07-16

    Abstract: 本发明公开了一种基于师生模型的多任务约束端到端含噪语音情感识别方法,包括:提出一个端到端的基于师生模型的多任务约束网络,借鉴知识蒸馏的思想,完成教师模型的多任务训练后,采用已训练成熟的教师模型提炼出纯净、显著的情感特征,来指导学生模型的训练过程;引入了一种多级增强损失机制,使学生模型能够在中间层学习到教师模型从干净语音中提取的关键情感信息;采用了语音增强辅助任务的思想,将语音增强辅助任务与多级增强损失相结合;在测试阶段时,仅需关注学生模型中特定于语音情感识别分类的核心流程,有效地提升了测试的执行速率。本发明实现了噪声环境下的语音情感识别任务,使情感分类准确率提升,适用于智能客服和心理健康监测。

    一种基于通道注意力机制和Transformer的端到端含噪语音分离方法

    公开(公告)号:CN119170038A

    公开(公告)日:2024-12-20

    申请号:CN202410951123.7

    申请日:2024-07-16

    Abstract: 本发明公开了一种基于通道注意力机制和Transformer的端到端含噪语音分离方法,包括:构建了时序感知上下文通道注意力层,从特征的通道维度对其进行有效地过滤和筛选;同时,由于时序感知和上下文感知特性的存在,进一步提高了含噪下通道权重分配的合理性;其次,为了增强编码器输出的语音潜在特征的全局表达和建模能力,提出双向LSTM‑Transformer编码器层,其中带有双向LSTM的前馈层进一步丰富了多头注意力特征中的全局上下文信息,提升了编码器进行特征编码的有效性。本发明实现了在复杂噪声下语音分离系统性能的提升,并且在各种分离测试指标上均显示出提升,另外合理的特征筛选所带来的模型复杂度的降低和有效性的提升,使得本发明适合大多涉及人机交互的应用场景。

    一种基于选择性状态空间模型的含噪语音分离方法

    公开(公告)号:CN118782065A

    公开(公告)日:2024-10-15

    申请号:CN202410934275.6

    申请日:2024-07-12

    Abstract: 本发明公开了一种基于选择性状态空间模型的含噪语音分离方法,属于语音分离技术领域。该方法在时域语音分离框架中引入具有选择机制的Mamba来设计U型选择性语音分离模块(UMamba),以提高模型对噪声和语音的区分能力,从而减少含噪语音分离任务中的信号和噪声的误分配问题,并降低了模型的参数量。该方法首先使用一维卷积提取语音特征,然后利用设计的U型选择性语音分离模块(UMamba)进行语音分离,并通过特征精炼器(FeaturePcs)进一步增强分离后的语音特征,最后通过一维反卷积层恢复语音信号,实现端到端的语音分离。最后对所提出的方法进行性能评估,本发明保持很小的模型参数量但能取得优秀的性能,是一种对资源有限的用户十分友好的方法。

    基于卷积神经网络和联合优化的单通道语音分离方法

    公开(公告)号:CN113539293B

    公开(公告)日:2023-12-26

    申请号:CN202110911979.8

    申请日:2021-08-10

    Abstract: 本发明公开了一种基于卷积神经网络和联合优化的单通道语音分离方法,属于语音分离技术领域,包括对语音信号进行预处理,提取单个信号和混合语音信号的幅度谱特征,并计算多通道特征和目标信号的理想浮值掩蔽;将多通道特征输入卷积神经网络,并提取深度特征;将深度特征和多通道特征进行融合,作为全连接层的输入,输出为目标信号的理想浮值掩蔽,并进行参数寻优以训练卷积神经网络;将混合语音信号输入训练后的卷积神经网络,以实现对混合语音信号进行分离。本发明通过将混合幅度谱特征与深度特征在融合层进行融合来训练分离模型,使输入特征所包含的语音信息更加的丰富;对网络参数进行联合优化,使得分离语音的清晰度和可懂度大幅提高。

    一种基于结构化状态空间序列模型的双分支语音增强算法

    公开(公告)号:CN117219109A

    公开(公告)日:2023-12-12

    申请号:CN202311342274.4

    申请日:2023-10-17

    Abstract: 本发明公开一种基于结构化状态空间序列模型的双分支语音增强算法,包括:获取含噪语音的幅度谱和复数谱特征,并将其分别输入幅度粗略估计分支和复数细化估计分支,得到粗略估计的语音和细化之后的语音的实虚分量;引入交互模块实现幅度谱和复数谱特征在两分支之间的流动;将粗略估计的语音和细化之后的语音的实虚分量叠加,重建目标信号复数谱;对基于结构化状态空间序列模型的双分支增强算法进行性能评估。本发明同时估计幅度谱和复数谱并引入交互模块促进信息交流,使从一个分支学习到的特征能补充另一个分支缺失的信息;本发明使用一种对角化的状态空间模型对语音特征序列进行建模,既减少模型的参数量,又提升算法性能。

    基于多任务协同注意门控网络的含噪语音情感识别方法

    公开(公告)号:CN116721677A

    公开(公告)日:2023-09-08

    申请号:CN202310892828.1

    申请日:2023-07-20

    Abstract: 本发明提供了一种基于多任务协同注意门控网络的含噪语音情感识别方法,通过将语音情感分类主任务与语音增强次任务相结合的多任务协同注意门控网络,提高了特征的鲁棒性,在噪声环境下获得了优异的情绪识别性能;针对语音情感分类主任务,利用情感特征的通道和空间信息,融合局部特征和全局特征,提高了在语音情感识别系统中特征表达的可分辨性;模型中的次任务为语音增强,以降低噪声对深层特征的影响,通过共享表示学习使系统的整体鲁棒性得到加强,实现了噪声环境语音情感分类系统性能的提升。

    基于DNN与GMM模型的说话人识别方法

    公开(公告)号:CN108831486B

    公开(公告)日:2023-06-02

    申请号:CN201810518855.1

    申请日:2018-05-25

    Inventor: 孙林慧 顾婷

    Abstract: 本发明揭示了一种基于DNN与GMM模型的说话人识别方法,包括如下步骤:在给定特征参数MFCC的前提下,基于GMM‑SVM提取超矢量实现数据降维,并拟构建相关超矢量来提取携带更丰富的说话人身份信息的特征;构造深度信念网络体系结构来提取说话人深度特征;结合相关超矢量和瓶颈特征以构建新的说话人辨认系统。应用本发明的该说话人识别方法,较之于传统此类单独方法具备突出的实质性特点和显著的进步性:该方法弥补了传统特征参数不能挖掘语音信号深层结构信息的缺点;与传统GMM超矢量相比,相关超矢量在实现数据降维的同时在一定程度上提高了识别率,并且减少了系统建模时间。

    单通道盲源分离方法
    48.
    发明授权

    公开(公告)号:CN108875824B

    公开(公告)日:2022-09-27

    申请号:CN201810599522.6

    申请日:2018-06-11

    Inventor: 孙林慧 谢可丽

    Abstract: 本发明提供一种单通道盲源分离方法,通过训练阶段,给定不同源语音信号训练样本Ti,求得对应的初始身份子字典Di和初始公共子字典Dc,从而得到包括初始身份子字典Di和初始公共子字典Dc的联合字典,采用优化函数迭代更新联合字典;采用稀疏编码算法求解混合信号在联合字典下的稀疏投影系数;根据子字典和稀疏向量恢复各个源信号;针对联合字典区分能力不强产生的“交叉投影”问题,本发明采用高区分性的联合字典,相比于其他的基于稀疏表示的单通道盲源分离算法,减少了源干扰,分离质量有了明显提高。

    一种基于共振峰分布的改进MFCC参数语音识别算法

    公开(公告)号:CN114974295A

    公开(公告)日:2022-08-30

    申请号:CN202210533421.5

    申请日:2022-05-13

    Abstract: 本发明公开了一种基于共振峰分布的改进MFCC参数语音识别算法,包括分割语音频谱得到不同频谱区间,利用线性预测法和倒谱法分别估算一帧语音的共振峰频率分布;统计不同频谱区间上共振峰频率分布,依据共振峰在不同频谱区间上的分布,利用熵权法求取各个区间在一帧语音音频上的权重;进一步计算MFCC参数,依据Mel频率和实际频率的关系,找到MFCC参数对应的区间权重,进行乘积得到改进的MFCC参数。本发明采用了本发明通过熵权法对各频率区间求得权重系数(以三种方法分别求取的共振峰频率个数为标准),提取共振峰频率特征得到的权重系数与多通道梅尔滤波器组对应频率区间通道输出之间的乘积,从而能够实现较高的语音识别率。

    一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法

    公开(公告)号:CN114203203A

    公开(公告)日:2022-03-18

    申请号:CN202110812035.5

    申请日:2021-07-19

    Abstract: 本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:S1、提取傅里叶系数特征并输入深度神经网络,训练深度神经网络以提取瓶颈特征,得到深层瓶颈层特征及浅层瓶颈层特征;S2、对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;S3、对融合后的深浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;S4、构建组合分类器,提出多分类器联合判决算法,进行联合判决、得到最终判决结果。本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用GA对这两种特征进行融合,弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。

Patent Agency Ranking