-
公开(公告)号:CN119252272B
公开(公告)日:2025-05-13
申请号:CN202411765064.0
申请日:2024-12-04
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于多尺度特征通道融合的多通道语音分离方法及设备,方法包括:获取若干具有不同噪声、混响和说话人的多通道混合语音信号形成训练数据集;构建基于多尺度特征通道融合的多通道语音分离网络,具体包括高维特征提取模块、空间特征提取模块、多尺度特征提取模块、基于特征通道融合的卷积分离网络、语音重构模块;将所述训练数据集输入所述多通道语音分离网络,进行网络训练;将待分离的含噪含混响含多个说话人的混合多通道语音信号输入训练好的多通道语音分离网络,得到各个说话人的单通道语音信号。本发明分离能力和泛化能力更强。
-
公开(公告)号:CN118887967A
公开(公告)日:2024-11-01
申请号:CN202411055465.7
申请日:2024-08-02
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0232 , G10L25/18 , G10L25/45 , G10L25/30
Abstract: 本发明公开了一种基于增强注意力双路径卷积循环网络的语音增强方法及设备,方法包括:对含噪训练语音信号进行分帧、加窗处理,计算改进离散余弦变换谱图;构建增强注意力双路径卷积循环网络,由编码器模块、SimAM注意力块、双路径长短时记忆模块、解码器模块和hardtanh函数映射模块组成;将含噪训练语音的改进离散余弦变换谱图、纯净语音分别作为该网络的输入特征和标签,基于组合损失函数训练该增强注意力双路径卷积循环网络;将含噪测试语音信号的改进离散余弦变换谱图作为输入特征,增强注意力双路径卷积循环网络估计对应纯净语音的改进余弦变换谱图,逆变换后得到时域的增强语音。本发明实现了在较小参数量和计算量情况下获得了更好的感知语音质量。
-
公开(公告)号:CN119252272A
公开(公告)日:2025-01-03
申请号:CN202411765064.0
申请日:2024-12-04
Applicant: 东南大学
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明公开了一种基于多尺度特征通道融合的多通道语音分离方法及设备,方法包括:获取若干具有不同噪声、混响和说话人的多通道混合语音信号形成训练数据集;构建基于多尺度特征通道融合的多通道语音分离网络,具体包括高维特征提取模块、空间特征提取模块、多尺度特征提取模块、基于特征通道融合的卷积分离网络、语音重构模块;将所述训练数据集输入所述多通道语音分离网络,进行网络训练;将待分离的含噪含混响含多个说话人的混合多通道语音信号输入训练好的多通道语音分离网络,得到各个说话人的单通道语音信号。本发明分离能力和泛化能力更强。
-
-