-
公开(公告)号:CN116129881A
公开(公告)日:2023-05-16
申请号:CN202310003040.0
申请日:2023-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。
-
公开(公告)号:CN115910062A
公开(公告)日:2023-04-04
申请号:CN202211493907.7
申请日:2022-11-25
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频识别方法、装置、设备及存储介质,涉及计算机技术领域,用于解决通用技术中存在的音频识别模型进行识别处理时效率较低的问题。该音频识别方法包括:获取待识别音频数据;将待识别音频数据输入至预先训练得到的目标识别模型中,得到识别结果;目标识别模型包括多个目标音频识别模块;目标音频识别模块用于基于与目标音频识别模块对应的目标验证单元,对输入音频数据进行验证得到目标验证结果;目标验证结果用于表征是否跳过目标音频识别模块对输入音频数据的识别处理;输入音频数据为基于待识别音频数据的音频特征数据;目标验证单元用于验证输入音频数据的音频信号特征是否符合目标特征范围。
-
公开(公告)号:CN115331694A
公开(公告)日:2022-11-11
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN113744729A
公开(公告)日:2021-12-03
申请号:CN202111095442.5
申请日:2021-09-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供一种语音识别模型生成方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以得到更优的语音识别模型。该方法包括:获取语音样本数据;构建第一语音识别超网络,第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,搜索特征包括分支个数、网络层维度和通道选择维度;搜索特征包括分支个数、网络层维度和通道选择维度;基于语音样本和语音样本标签,对第一语音识别超网络执行训练操作,得到第二语音识别超网络;语音样本标签作为语音样本对应的期望识别值;对第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;对目标语音识别子网络进行重训练,得到语音识别模型。
-
公开(公告)号:CN110277106B
公开(公告)日:2021-10-22
申请号:CN201910542177.7
申请日:2019-06-21
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频质量确定方法、装置、设备及存储介质,属于多媒体技术领域。本公开提供了一种融合信号处理的方法以及深度学习的方法,来确定音频质量的方案。通过根据人声音频与原唱人声音频之间的差异程度,获取音频的第一分数,从而以信号处理的方式,来确定音频质量。通过提取该人声音频的梅尔谱,将该人声音频的梅尔谱输入神经网络,输出该音频的第二分数,从而以深度学习的方式,来确定音频质量。由于梅尔谱包含音色特征,使得神经网络能根据音色特征来确定第二分数,因此第二分数能反映音频是否好听,通过融合第一分数以及第二分数,得出音频的目标分数,目标分数可综合两种方法的优势,因此能更准确地反映出音频的质量。
-
公开(公告)号:CN119339691A
公开(公告)日:2025-01-21
申请号:CN202411456368.9
申请日:2024-10-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种音乐生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待转换的歌词文本和参考音频;将参考音频由原始音频空间映射到潜在空间,得到第一音频特征;基于作用在潜在空间的扩散模型,对第一音频特征执行多步加噪处理,得到噪声特征;在给定前置条件的情况下,基于扩散模型对噪声特征执行多步去噪处理,得到第二音频特征;其中,前置条件与该歌词文本和参考音频的总时长有关;将第二音频特征由潜在空间映射回原始音频空间,得到用于演唱该歌词文本的音乐作品。本公开简化了音乐生成过程中的用户输入,提高了音乐生成效率。
-
公开(公告)号:CN115547308B
公开(公告)日:2024-09-20
申请号:CN202211067740.8
申请日:2022-09-01
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,该方法包括:确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本申请通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。
-
公开(公告)号:CN115331694B
公开(公告)日:2024-09-20
申请号:CN202210975124.6
申请日:2022-08-15
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
Abstract: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN112967730B
公开(公告)日:2024-07-02
申请号:CN202110125640.5
申请日:2021-01-29
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0208 , G10L21/0264
Abstract: 本公开是关于一种语音信号的处理方法、装置、电子设备及存储介质,属于语音处理技术领域。方法包括:确定原始语音信号中的多个语音信号帧的第一语音特征;调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合,得到所述每个语音信号帧的非局部语音特征;调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理,得到所述每个语音信号帧的混合语音特征;基于所述多个语音信号帧的混合语音特征获取去噪参数;按照所述去噪参数对所述原始语音信号进行去噪,得到目标语音信号。该方法在处理过程中考虑该语音信号帧的上下文信息,使得到的去噪参数更加准确,从而提高原始语音信号的去噪效果。
-
公开(公告)号:CN115633223A
公开(公告)日:2023-01-20
申请号:CN202211256196.1
申请日:2022-10-13
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/81 , H04N21/8549 , H04N21/845 , H04N21/44 , H04N21/439 , H04N21/234 , H04N21/233 , H04N21/2187
Abstract: 本公开提供了一种视频处理方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:对第一视频进行分类,得到第一视频所属的视频类型;基于视频类型,确定第一视频的音频处理类型;对第一视频进行内容识别,得到音频处理类型对应的内容关键信息;获取目标视频信息,将目标视频信息添加在第一视频中,得到第二视频。本公开实施例提供了一种视频处理方法,考虑到属于不同视频类型的第一视频中的原有音频的特点,确定出第一视频所属的音频处理类型,按照该音频处理类型对应的处理方式,对第一视频进行处理,以针对不同视频类型的第一视频中的原有音频的特点进行处理,得到更具特色的第二视频,进行保证了第二视频的视频效果。
-
-
-
-
-
-
-
-
-