-
公开(公告)号:CN118298839A
公开(公告)日:2024-07-05
申请号:CN202410332076.8
申请日:2024-03-22
Applicant: 南京邮电大学
IPC: G10L21/02 , G06N3/0464 , G06N3/045 , G06N3/0985 , G06N3/0442 , G06N3/048 , G06N3/0895 , G10L21/0216 , G10L25/30 , G10L25/48
Abstract: 本发明公开了一种基于全局掩码的自监督语音增强方法,包括训练阶段和测试阶段,构建的语音增强模型,包括特征提取模块、语音增强模块和全局掩码映射器,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在WavLM模型中提出全局掩码,从而实现全局感知,补充语音重建所需要的信息,然后将提取到的声学特征传递到BLSTM模型中进行增强,最后提出全局掩码映射器,对所有被掩码的位置进行采样,并将所有盲点分配到同一层,从而允许损失函数一次性优化所有盲点,加速训练,得到全局去噪后的增强语音。本发明方法能够有效提高语音增强的性能,改善降噪效果,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-
公开(公告)号:CN119296563A
公开(公告)日:2025-01-10
申请号:CN202411391984.0
申请日:2024-10-08
Applicant: 南京邮电大学
IPC: G10L21/0232 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/0895 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种基于去统计实例归一化的自监督语音增强方法,包括训练阶段和测试阶段;在训练阶段获取训练语料,构建语音增强模型并进行训练,得到语音增强模型所需的参数和损失函数,而在测试阶段实现含噪语音的增强。语音增强模型包括特征提取模块和语音增强模块,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在特征提取模块和语音增强模块之间提出去统计实例归一化,解决序列数据中的均值和方差等统计属性随时间变化而产生的分布偏移问题,提高模型预测的准确性和去噪效果。本发明自监督语音增强方法能够有效提高语音增强的性能,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-