-
公开(公告)号:CN120071955A
公开(公告)日:2025-05-30
申请号:CN202510128877.7
申请日:2025-02-05
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0316 , G10L21/0224 , G10L21/0232 , G10L25/21 , G06N5/04
Abstract: 本申请涉及音频降噪技术领域,尤其是涉及一种音频降噪模型训练方法、系统、设备及介质,包括对初始语音信息进行预处理,得到预处理语音信息;对预处理语音信息进行时频分析,得到幅度谱信息;对幅度谱信息进行特征归一化处理,得到特征归一化缩放值信息;将特征归一化缩放值信息输入至待训练的降噪模型进行前向推理,得到幅度谱掩码信息,根据幅度谱掩码信息和幅度谱信息进行降噪分析,得到降噪幅度谱信息;对初始语音信息进行均方根归一化处理,得到均方根归一化缩放参数;获取标签信息,根据均方根归一化缩放值信息对降噪幅度谱信息和标签信息分别进行缩放,得到均方根归一化结果信息,使降噪系统能够有更高的适应性和性能,提升降噪效果。
-
公开(公告)号:CN119107966A
公开(公告)日:2024-12-10
申请号:CN202411292363.7
申请日:2024-09-14
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0224 , G10L21/0232 , G10L21/0264
Abstract: 本申请涉及音频处理技术领域,公开了一种基于损失函数的降噪方法、装置及降噪系统,其方法包括获取带噪音频的时域输出序列和频域时频图;分别将时域输出序列和对应的时域标签分割成不同单位时长的输出序列音频段和对应的不同单位时长的标签音频段,得到输出序列音频组和标签音频组;基于输出序列音频组和所述标签音频组计算时域误差;以及基于频域时频图、输出序列音频组和标签音频组计算频域误差;构建目标损失函数;输出训练好的深度学习模型;对带噪音频进行估计,获得目标音频。本申请可以达到改善模型对语音信号的过抑制现象,提高模型降噪精度的效果。
-
公开(公告)号:CN119851646A
公开(公告)日:2025-04-18
申请号:CN202411996334.9
申请日:2024-12-31
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10K11/178 , G10L19/00 , G10L19/008 , G10L19/005
Abstract: 本发明提供了一种基于U‑net结构的语音信号降噪方法及装置,对待处理语音信号进行短时傅里叶变换,得到多个短时帧分别对应的幅度谱;针对每个短时帧,通过多层编码器对该短时帧对应的幅度谱中的非直流信息进行编码处理,得到编码结果;通过每层时域卷积网络对编码结果进行处理,得到特征提取结果;通过多层解码器对特征提取结果进行解码处理,得到降噪后的目标语音信号;该方式采用U‑net结构,并基于幅度谱进行处理,通过适用于幅度谱运算的多层编码器、时域卷积网络和多层解码器,可以降低计算量、提高计算效率,同时减少对内存的占用,提高对待处理语音信号的降噪效果。
-
公开(公告)号:CN119495313A
公开(公告)日:2025-02-21
申请号:CN202411675242.0
申请日:2024-11-21
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0208 , G10L21/0316 , G10L25/21 , G10L25/30
Abstract: 本发明提供了一种语音降噪方法、装置及电子设备,包括:获取原始语音数据;将上述原始语音数据进行预处理,得到预处理音频数据;对上述预处理音频数据进行傅里叶变化,确定上述预处理音频数据对应的幅度谱和相位谱;根据上述幅度谱进行噪声估计,确定幅度谱掩码;基于上述幅度谱掩码、上述幅度谱和上述相位谱,确定上述原始语音数据对应的降噪后的语音数据。该方法通过对语音信号中的幅度谱进行噪声估计,确定幅度谱掩码,以根据幅度谱掩码对原始语音信号进行降噪处理,从而不需要预先了解噪声类型和信噪比。并且,该过程不需要工程师手动优化参数,从而提升语音降噪方法的自动化程度和降噪效果。
-
公开(公告)号:CN118782070A
公开(公告)日:2024-10-15
申请号:CN202410941579.5
申请日:2024-07-15
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0232 , G10L21/0216
Abstract: 本申请涉及语音处理技术领域,公开了一种基于幅度谱和复数谱的双阶段语音降噪方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,其方法包括对获取的原始语音信号执行预处理操作,并按预设间隔划分得到若干时帧;确定各不同频率分量的幅度、相位信息和各不同频率分量的复数谱;利用各不同频率分量的幅度进行噪声估计,对原始带噪语音进行初步的噪声抑制,得到初步降噪的幅度谱;基于初步降噪的幅度谱,结合相位信息,转化得到初步降噪的复数谱;利用原始带噪语音的复数谱和初步降噪的复数谱进行噪声估计,转换得到目标语音信号的复数谱。本申请具有在处理低信噪比或者多种类型噪声混合的带噪语音时提升降噪精度的效果。
-
公开(公告)号:CN116597852A
公开(公告)日:2023-08-15
申请号:CN202211682876.X
申请日:2022-12-27
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0208 , G10L25/30
Abstract: 本发明公开了一种语音降噪模型训练方法及装置,获取待训练语音样本并将训练样本和RNNt‑1隐藏状态值输入语音模型中,对训练样本和RNNt‑1隐藏状态值进行前向传播得到实际语音结果与更新后的RNNt‑1隐藏状态值,重置更新后的RNNt‑1隐藏状态值,利用经过权重掩码的MSN计算出加权误差结果,使语音模型根据所述加权误差结果进行反向传播并更新语音模型权重得到输出更新后的新语音模型权重后,根据更新后的新语音模型权重和所述重置后的RNNt‑1隐藏状态值及所述训练样本进行前向传播直到语音模型收敛得到目标语音模型,通过使用本方法能够在不改变模型结构和训练数据的情况下,解决模型在真实应用场景中出现的过拟合问题,改善模型的降噪效果,提高模型对于突发噪声的抑制能力,提高语音降噪效果。
-
公开(公告)号:CN120071888A
公开(公告)日:2025-05-30
申请号:CN202510162618.6
申请日:2025-02-14
Applicant: 厦门亿联网络技术股份有限公司
Abstract: 本申请涉及语音处理技术领域,公开了一种基于AI的实时音频合成方法、装置、系统及声码器,其方法包括:基于MelGAN网络,将原生成器替换为用于学习多层次声学特征的多层次波形生成器,在每层上采样层后增加残差融合层,构建初始AI声码器模型;其中,任一上采样层及其末端连接的残差融合层构成多层次残差融合模块,多层次残差融合模块用于确保每次上采样层的输入特征均包含以前的音频特征和实时推理;对初始AI声码器模型进行迭代训练,得到目标AI声码器模型输出;获取待合成音频的Mel频谱图,输入目标AI声码器模型中,得到目标音频。本申请具有改善语音合成的实时性,语音内容的正确性能得到保障的效果。
-
公开(公告)号:CN119649839A
公开(公告)日:2025-03-18
申请号:CN202510027842.4
申请日:2025-01-08
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L21/0232 , G10L21/0216 , G10L25/30
Abstract: 本申请公开了基于时序卷积网络的语音降噪方法、系统、设备及介质,方法包括:对原始语音信号预处理,并划分成多个时帧;确定不同频率分量的幅度谱、复数谱及相位;对幅度谱进行噪声估计,并对原始语音进行初步噪声抑制,得到初步降噪的幅度谱掩码;根据初步降噪的幅度谱掩码和相位,得到不同频率分量的初步降噪的复数谱;对第一频率分量原始语音的复数谱和第一频率分量初步降噪的复数谱噪声估计,得到第一频率分量第一复数谱;将第一频率分量第一复数谱与第一频率分量初步降噪的复数谱相加,相加后再与第二频率分量初步降噪的复数谱拼接,得到降噪后的复数谱。本申请能够减少降噪模型的运算量,提高复杂条件下的降噪效果及在突变场景下的鲁棒性。
-
公开(公告)号:CN116168674A
公开(公告)日:2023-05-26
申请号:CN202211684161.8
申请日:2022-12-27
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10K11/178
Abstract: 本发明公开了一种基于复数频谱的语音降噪方法及系统,方法包括实时获取原始语音信号,并将原始语音信号转换为频域复数形式,获得第一复数频谱,提取第一复数频谱中的非直流部分,获得第二复数频谱;通过预设复数运算模型,对第二复数频谱进行噪声估计,获得第一复数掩码;其中,预设复数运算模型包括预设N层复数形式的Encoder、预设M层复数形式的RNN和预设N层复数形式的Decoder;根据第一复数掩码的实部和虚部、原始语音信号的幅度谱和相位谱,进行降噪频谱转化,获得第三复数频谱,并将第三复数频谱转化为时域形式,获得降噪信号,实现语音降噪。本实施例实现了实时降噪抑制,清晰还原语音信号,降低模型运算量,提高降噪效果。
-
公开(公告)号:CN117219129A
公开(公告)日:2023-12-12
申请号:CN202311234417.X
申请日:2023-09-22
Applicant: 厦门亿联网络技术股份有限公司
IPC: G10L25/87 , G10L25/30 , G10L21/0232 , G10L21/0316
Abstract: 本发明公开了一种语音端点检测方法、装置、终端设备以及存储介质,包括:获取带噪语音的语音信号,并根据所述语音信号生成对应的幅度矩阵;将语音信号输入至预设的前置降噪模型中,以使前置降噪模型输出所述带噪语音对应的降噪结果;将降噪结果与所述幅度矩阵进行拼接,得到拼接结果;将拼接结果输入至预设的语音端点检测模型中,以使语音端点检测模型根据所述拼接结果进行语音端点检测,生成对应的第一VAD序列;根据第一VAD序列与所述降噪结果,生成降噪语音的语音端点检测结果。本发明能够通过改变语音检测模型的输入,简化模型并减轻模型运行时的运算量,使语音端点检测模型能够在更低性能的平台上实时运行。
-
-
-
-
-
-
-
-
-