-
公开(公告)号:CN113192522A
公开(公告)日:2021-07-30
申请号:CN202110438286.1
申请日:2021-04-22
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L19/02 , G10L19/16 , G10L13/027
Abstract: 本公开提供了音频合成模型生成方法及装置、音频合成方法及装置,涉及音频处理技术领域,以解决相关技术中歌声的音频合成的真实性较差的问题。该方法包括:获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息;基于第一音频数据的特征和第二音频数据的特征进行特征合并,得到目标特征,并基于该目标特征对目标音频的进行类型识别和频谱识别,分别得到目标音频的类型信息和频谱信息,可以与样本音频的类型信息和频谱信息进行比较,确定第一信息和第二信息,根据该第一信息和第二信息生成音频合成模型,从而确保得到的音频合成模型生成的目标音频相对于样本音频的真实度,提高音频合成模型生成合成音频的真实性。
-
公开(公告)号:CN111899760A
公开(公告)日:2020-11-06
申请号:CN202010693055.0
申请日:2020-07-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频事件的检测方法、装置、电子设备及存储介质,所述方法包括:获取待识别的音频数据对应的音频特征;根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征;对多个子频带特征分别进行特征提取,得到多个子频带目标特征;根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果。该方法通过采用深度学习网络学习具有频带级别差异的多个子频带特征,将频带级别的差异应用到基于深度学习的音频事件分类模型中,可以提升音频事件分类模型的分类性能,使得音频事件分类模型能够识别得到待识别的音频数据中所包含的多种音频事件,从而使音频事件检测更加全面且具有较高的准确度。
-
公开(公告)号:CN110648658A
公开(公告)日:2020-01-03
申请号:CN201910840757.4
申请日:2019-09-06
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/06 , G10L15/02 , G10L19/005 , G10L19/04 , G10L25/24
Abstract: 本公开关于一种语音识别模型的生成方法、装置及电子设备,用于提高模型识别的准确率和识别效果。该方法包括:获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
-
公开(公告)号:CN116386659B
公开(公告)日:2025-04-01
申请号:CN202310118537.7
申请日:2023-02-02
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音乐视频生成方法、装置、电子设备及存储介质,该方法包括:获取目标音乐的歌词序列、和弦信息集和节奏信息集,基于歌词序列确定歌词语义信息序列,歌词语义信息序列中的歌词语义信息的数量和歌词序列中歌词的句数相同,根据歌词语义信息序列和节奏信息集生成初始图片集,利用和弦信息集对初始图片集中的图片进行风格转换,得到目标图片集,基于目标图片集和目标音乐确定目标视频,目标视频包括目标音乐。本申请通过音乐节奏,和弦和文本的结合,得到了更多贴合文本和节奏的图片,且在此基础上,还利用和弦信息对图片做进一步风格转换,得到信息更丰富,和音乐更贴合的视频图片。
-
公开(公告)号:CN114154003B
公开(公告)日:2024-10-25
申请号:CN202111333053.1
申请日:2021-11-11
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/58
Abstract: 本公开提出一种图片的获取方法、装置、电子设备及存储介质,涉及计算机技术领域。其中,方法包括:获取待上传的音频数据对应的第一音频特征;根据所述第一音频特征与参考音频对应的第二音频特征间的第一匹配度,确定目标参考音频;根据预设的参考音频与图片的对应关系,确定所述目标参考音频对应的第一参考图片;在图片推荐界面,展示所述第一参考图片。由此,可以根据音频数据与参考音频间的匹配度,先确定出匹配的目标参考音频,之后再根据参考音频与图片的对应关系,即可确定出对应的第一参考图片,不仅考虑到了音频间的匹配度,而且也结合了音频与图片间的对应关系,从而提高了参考图片获取的准确性。
-
公开(公告)号:CN112348073B
公开(公告)日:2024-05-17
申请号:CN202011193575.1
申请日:2020-10-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F18/214 , G06F40/279 , G06F16/33
Abstract: 本公开关于一种多音字识别方法、装置、电子设备及存储介质,涉及信息识别技术领域。方法包括:将待处理文本序列输入完成训练的多音字识别模型,得到所述多音字识别模型输出的预测概率值最高的N个候选音节序列,再将所述N个候选音节序列,输入完成训练的语言模型,分别获得各个候选音节序对应的第一概率,输出第一概率最大的候选音节序列,作为所述待处理文本序列的多音字识别结果。这样,而且提高了对多音字识别模型进行训练的样本的数量和覆盖面,并考虑到弱监督样本数据可能引入的噪声,采用语言模型对多音字识别模型输出的预测结果进行重新评估,进而完成输出,保证训练后得到的多音字识别模型的可靠性。
-
公开(公告)号:CN116895266A
公开(公告)日:2023-10-17
申请号:CN202310822650.3
申请日:2023-07-05
Applicant: 北京达佳互联信息技术有限公司
IPC: G10H1/00
Abstract: 本公开关于一种歌曲生成方法、装置、电子设备及存储介质。所述方法包括:获取针对待生成的目标歌曲选择的原始歌曲和输入的歌词文本;提取原始歌曲的曲谱信息特征,以及确定歌词文本的文本统计信息;将曲谱信息特征和文本统计信息输入至预训练的曲谱生成模型,得到目标曲谱;目标曲谱的旋律线与原始歌曲的旋律线相同,且目标曲谱中各音符与歌词文本中各字符相匹配;根据目标曲谱,输出歌词为歌词文本的歌声音频,获得目标歌曲。采用本方法可以基于原始歌曲自动改编生成目标曲谱,以适配用户输入的歌词文本,能够得到与所选择歌曲旋律线相同且符合指定文本的旋律,保证了旋律和节奏的和谐性,提升了歌曲生成效果与处理效率。
-
公开(公告)号:CN111402865B
公开(公告)日:2023-08-08
申请号:CN202010201114.8
申请日:2020-03-20
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音识别训练数据的生成方法和语音识别模型的训练方法。其中,该生成方法包括:获取客户端上传的初始语音识别数据,其中,初始语音识别数据包括语音数据以及与语音数据对应的文本数据;将语音数据对应的文本数据和预设文本数据进行比对,计算初始语音识别数据的字错误率;筛选字错误率位于预设字错误率区间的初始语音识别数据,确定为弱标签语音识别数据;获取人工标注的语音识别数据;合并弱标签语音识别数据和人工标注的语音识别数据,得到语音识别训练数据。由于弱标签语音识别数据获取方便,可以在短时间内获得大量有效的弱标签语音识别数据,节约了语音识别训练数据的生成时间及减少了语音识别训练数据的生成成本。
-
公开(公告)号:CN116451773A
公开(公告)日:2023-07-18
申请号:CN202310434638.5
申请日:2023-04-21
Applicant: 北京达佳互联信息技术有限公司
IPC: G06N3/0895 , G06N3/0464 , G06N3/0455 , G06N3/044 , G10L25/27 , G10L25/48
Abstract: 本公开提供一种动作生成模型的训练方法、动作生成方法及装置,涉及计算机技术领域。该方法包括:获取第一音频样本、第一动作图像样本、第二音频样本和第二动作图像样本;利用第一音频样本训练音频编码器和音频量化器,得到训练完成的音频编码器和音频量化器;利用第一动作图像样本训练动作量化器和动作解码器,得到训练完成的动作量化器和动作解码器;利用第二音频样本和第二动作图像样本训练音频动作转换器,得到训练完成的音频动作转换器;依次连接训练完成的音频编码器、音频量化器、音频动作转换器、动作量化器和动作解码器,生成动作生成模型。该方法解决了相关技术中模型训练不充分以及泛化性能差的问题,提升模型的泛化性能。
-
公开(公告)号:CN111710332B
公开(公告)日:2023-07-07
申请号:CN202010612566.5
申请日:2020-06-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/187 , G10L15/02 , G10L15/04 , G10L15/08
Abstract: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音,对待识别语音进行分帧处理,得到多个待检测音帧;提取每个待检测音帧分别对应的语音特征;对每个语音特征进行识别,得到每个待检测音帧的检测结果;根据检测结果,对待识别语音进行切分,得到多个目标语音片段,其中,每个目标语音片段的长度小于或者等于第一阈值,且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内,可以提高目标语音片段的语音识别效率;同时,由于相邻目标语音片段的长度之和大于或等于第二阈值,使得目标语音片段具有一定的上下文信息,从而可以提高语音识别的准确率。
-
-
-
-
-
-
-
-
-