-
公开(公告)号:CN114446318A
公开(公告)日:2022-05-06
申请号:CN202210120055.0
申请日:2022-02-07
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/028 , G10L25/03 , G10L25/51
Abstract: 本公开关于一种音频数据分离方法、装置、电子设备和存储介质。该方法包括:对待处理音频数据进行变换处理,得到所述待处理音频数据对应的频谱特征,其中,所述待处理音频数据包括多种音频类型的目标音频信息;通过音频分离网络对所述频谱特征进行分离处理,得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征,其中,所述音频分离网络为基于编解码结构的卷积自注意力机制模型;对各所述目标音频信息对应的预测频谱特征进行反变换处理,得到所述待处理音频数据中的各所述目标音频信息。采用本公开可以提高音频分离效率和音频分离精度。
-
公开(公告)号:CN115331694A
公开(公告)日:2022-11-11
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN114171051B
公开(公告)日:2025-05-13
申请号:CN202111447488.9
申请日:2021-11-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G06N3/045 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本公开关于一种音频分离方法、装置、电子设备及存储介质,所述方法包括:获取待分离音频对应的频域幅度谱;对所述频域幅度谱进行特征提取处理,得到所述待分离音频的频域特征图和时间特征图;所述频域特征图用于表征所述频域幅度谱在同一时刻不同频率维度的特征,所述时间特征图用于表征所述频域幅度谱在不同时刻频域维度的特征;对所述频域特征图和所述时间特征图进行注意力融合处理,得到融合特征图;对所述融合特征图进行解码处理,得到所述待分离音频对应的人声幅度谱和背景伴奏幅度谱。该方法可以捕捉到不同乐器在频谱中的分布规律,提高对待分离音频的分离效果。
-
公开(公告)号:CN115641868A
公开(公告)日:2023-01-24
申请号:CN202211100895.7
申请日:2022-09-09
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30
Abstract: 本公开关于一种音频分离方法、装置、电子设备及计算机可读存储介质。音频分离方法包括:对待分离音频,基于音频分离模型的粗分网络,获得待分离音频的混合音频复数谱以及至少两个轨道的粗分音频复数谱;对至少两个轨道的粗分音频复数谱和混合音频复数谱,基于音频分离模型的残差补偿网络,获得至少两个轨道的复数谱残差;针对每个轨道,根据粗分音频复数谱和复数谱残差,确定音频复数谱;将至少两个轨道的音频复数谱分别转换为音频信号;其中,粗分网络和残差补偿网络中均包含二维窗自注意力网络,二维窗自注意力网络包括串行的多头自注意力层和二维窗自注意力层。根据本方案,能够全面捕获多任务音频分离所需的信息,提升音频分离性能。
-
公开(公告)号:CN114171051A
公开(公告)日:2022-03-11
申请号:CN202111447488.9
申请日:2021-11-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本公开关于一种音频分离方法、装置、电子设备及存储介质,所述方法包括:获取待分离音频对应的频域幅度谱;对所述频域幅度谱进行特征提取处理,得到所述待分离音频的频域特征图和时间特征图;所述频域特征图用于表征所述频域幅度谱在同一时刻不同频率维度的特征,所述时间特征图用于表征所述频域幅度谱在不同时刻频域维度的特征;对所述频域特征图和所述时间特征图进行注意力融合处理,得到融合特征图;对所述融合特征图进行解码处理,得到所述待分离音频对应的人声幅度谱和背景伴奏幅度谱。该方法可以捕捉到不同乐器在频谱中的分布规律,提高对待分离音频的分离效果。
-
公开(公告)号:CN115331694B
公开(公告)日:2024-09-20
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
-
-
-
-