音频分离方法、装置、电子设备及存储介质

    公开(公告)号:CN114171051A

    公开(公告)日:2022-03-11

    申请号:CN202111447488.9

    申请日:2021-11-30

    Abstract: 本公开关于一种音频分离方法、装置、电子设备及存储介质,所述方法包括:获取待分离音频对应的频域幅度谱;对所述频域幅度谱进行特征提取处理,得到所述待分离音频的频域特征图和时间特征图;所述频域特征图用于表征所述频域幅度谱在同一时刻不同频率维度的特征,所述时间特征图用于表征所述频域幅度谱在不同时刻频域维度的特征;对所述频域特征图和所述时间特征图进行注意力融合处理,得到融合特征图;对所述融合特征图进行解码处理,得到所述待分离音频对应的人声幅度谱和背景伴奏幅度谱。该方法可以捕捉到不同乐器在频谱中的分布规律,提高对待分离音频的分离效果。

    一种音频识别方法、装置、设备及存储介质

    公开(公告)号:CN113628637A

    公开(公告)日:2021-11-09

    申请号:CN202110750209.X

    申请日:2021-07-02

    Abstract: 本公开提供一种关于音频识别方法、装置、设备及存储介质,涉及视频处理领域。包括:获取待分析视频的音频数据和图像数据;根据待分析视频的音频数据,确定待分析视频的音频的指纹特征;在音频库中不存在与音频的指纹特征匹配的音频的情况下,根据待分析视频的音频数据,确定待分析视频中的音乐特征和语音歌词中的至少一项;以及,根据待分析视频的图像数据,确定待分析视频中的文字歌词和歌名中的至少一项;根据特征数据中的一项或多项,从音频库中匹配待分析视频的歌曲标识。基于此,通过视频中的音频数据和图像数据两个维度确定视频中的文件,可以提高识别视频中的音频文件的准确度。

    语音识别模型的生成方法、语音识别方法、装置

    公开(公告)号:CN111696526B

    公开(公告)日:2021-09-10

    申请号:CN202010573393.0

    申请日:2020-06-22

    Abstract: 本公开关于一种语音识别模型的生成方法、语音识别方法、装置、电子设备及存储介质,其中,语音识别模型的生成方法包括:对多个语音信号样本各自对应的原始语音特征序列进行划分,生成每个语音信号样本对应的多个原始语音特征块;采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别,得到每个语音信号样本的预测文本序列;根据每个语音信号样本对应的预测文本序列,对待训练的语音识别模型进行训练,直至达到预设停止条件,生成语音识别模型。由于该方法训练过程中的语音识别模型进行语音识别是基于划分好的特征块进行,从而不再依赖整句输入,使得训练得到的语音识别模型能够有效应用于流式的场景中。

    语音识别方法、装置、电子设备以及存储介质

    公开(公告)号:CN111696532A

    公开(公告)日:2020-09-22

    申请号:CN202010556372.8

    申请日:2020-06-17

    Abstract: 本申请关于一种语音识别方法、装置、电子设备以及存储介质,属于语音识别领域。方法包括:获取原始语音信号;对原始语音信号进行降噪处理,得到第一语音信号;将原始语音信号和第一语音信号进行融合,得到目标语音信号;对目标语音信号进行语音识别,得到与目标语音信号对应的语音信息。通过本申请提供的技术方案,获取原始语音信号之后,服务器可以对原始语音信号进行降噪处理,将降噪处理后的第一语音信号和原始语音信号进行融合,可以通过原始语音信号来弥补第一语音信号中丢失的语音信息。由于所得到的目标语音信号的所携带的信息更加完整,因此,通过上述技术方案进行的语音识别,可以得到较好的语音识别结果。

    语音识别模型的生成方法、语音识别方法、装置

    公开(公告)号:CN111696526A

    公开(公告)日:2020-09-22

    申请号:CN202010573393.0

    申请日:2020-06-22

    Abstract: 本公开关于一种语音识别模型的生成方法、语音识别方法、装置、电子设备及存储介质,其中,语音识别模型的生成方法包括:对多个语音信号样本各自对应的原始语音特征序列进行划分,生成每个语音信号样本对应的多个原始语音特征块;采用待训练的语音识别模型对每个语音信号样本对应的多个原始语音特征块分别进行识别,得到每个语音信号样本的预测文本序列;根据每个语音信号样本对应的预测文本序列,对待训练的语音识别模型进行训练,直至达到预设停止条件,生成语音识别模型。由于该方法训练过程中的语音识别模型进行语音识别是基于划分好的特征块进行,从而不再依赖整句输入,使得训练得到的语音识别模型能够有效应用于流式的场景中。

    语音识别模型确定方法、语音识别方法及装置、电子设备

    公开(公告)号:CN111402893A

    公开(公告)日:2020-07-10

    申请号:CN202010210590.6

    申请日:2020-03-23

    Inventor: 李杰 王晓瑞 李岩

    Abstract: 本公开关于一种语音识别模型确定方法、语音识别方法及装置、电子设备,涉及语音识别领域。所述语音识别模型确定方法包括:获取样本语音数据;对样本语音数据进行分帧,对分帧获得的各帧样本语音数据进行特征提取,获得各帧样本语音数据的语音特征;对各帧样本语音数据的语音特征基于音节进行对齐,得到各帧样本语音数据对应的音节标签;采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别,获得各帧样本语音数据对应的预测音节。采用本方法能够提升语音识别的准确性。

    一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质

    公开(公告)号:CN115547308B

    公开(公告)日:2024-09-20

    申请号:CN202211067740.8

    申请日:2022-09-01

    Inventor: 王俊 邓峰 王晓瑞

    Abstract: 本公开关于一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,该方法包括:确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本申请通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。

    语音分离网络生成方法、装置、电子设备以及存储介质

    公开(公告)号:CN115331694B

    公开(公告)日:2024-09-20

    申请号:CN202210975124.6

    申请日:2022-08-15

    Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。

    语音信号的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN112967730B

    公开(公告)日:2024-07-02

    申请号:CN202110125640.5

    申请日:2021-01-29

    Abstract: 本公开是关于一种语音信号的处理方法、装置、电子设备及存储介质,属于语音处理技术领域。方法包括:确定原始语音信号中的多个语音信号帧的第一语音特征;调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合,得到所述每个语音信号帧的非局部语音特征;调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理,得到所述每个语音信号帧的混合语音特征;基于所述多个语音信号帧的混合语音特征获取去噪参数;按照所述去噪参数对所述原始语音信号进行去噪,得到目标语音信号。该方法在处理过程中考虑该语音信号帧的上下文信息,使得到的去噪参数更加准确,从而提高原始语音信号的去噪效果。

Patent Agency Ranking