-
公开(公告)号:CN114171051B
公开(公告)日:2025-05-13
申请号:CN202111447488.9
申请日:2021-11-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30 , G06N3/045 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本公开关于一种音频分离方法、装置、电子设备及存储介质,所述方法包括:获取待分离音频对应的频域幅度谱;对所述频域幅度谱进行特征提取处理,得到所述待分离音频的频域特征图和时间特征图;所述频域特征图用于表征所述频域幅度谱在同一时刻不同频率维度的特征,所述时间特征图用于表征所述频域幅度谱在不同时刻频域维度的特征;对所述频域特征图和所述时间特征图进行注意力融合处理,得到融合特征图;对所述融合特征图进行解码处理,得到所述待分离音频对应的人声幅度谱和背景伴奏幅度谱。该方法可以捕捉到不同乐器在频谱中的分布规律,提高对待分离音频的分离效果。
-
公开(公告)号:CN114970651B
公开(公告)日:2024-10-29
申请号:CN202110217833.3
申请日:2021-02-26
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本公开关于一种和弦生成模型的训练方法、和弦生成方法、装置,和弦生成模型的训练方法,包括:获取样本序列集合;包括:样本旋律序列以及样本调性序列、样本和弦序列以及样本和弦功能序列;将样本序列集合输入待训练的神经网络模型;神经网络模型用于根据样本序列集合中的样本旋律序列、样本调性序列、样本和弦序列中以及样本和弦功能序列中的部分序列位,预测完整的和弦序列以及和弦功能序列,并输出预测和弦序列以及预测和弦功能序列;基于预测和弦序列与样本和弦序列,预测和弦功能序列与样本和弦功能序列,确定当前神经网络模型的损失值;若小于预设的损失阈值,将当前神经网络模型作为和弦生成模型。本公开可以提高得到的和弦的和谐程度。
-
公开(公告)号:CN115114474B
公开(公告)日:2024-10-25
申请号:CN202110286728.5
申请日:2021-03-17
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/683 , G06F40/211
Abstract: 本公开提供一种关于一种歌词生成模型训练方法、歌词生成方法、装置及存储介质,涉及人工智能领域。包括:获取第一歌词文本,第一歌词文本至少包括一首或多首歌曲的歌词、歌曲中每一句歌词的字数信息;将第一歌词文本转换为训练字符;根据训练字符,对预设网络模型进行训练,得到歌词生成模型;歌词生成模型用于根据输入的待生成歌词的约束条件,生成与约束条件对应的待生成歌词,约束条件至少包括:输入文本以及待生成歌词中每句歌词的字数,待生成歌词包括输入文本,歌词生成模型具备识别训练字符的能力。基于此,歌词生成模型训练装置可以通过在训练歌词文本中增加字数信息,提高歌词生成模型生成符合字数要求的歌词的能力。
-
公开(公告)号:CN113744763B
公开(公告)日:2024-02-23
申请号:CN202110947841.3
申请日:2021-08-18
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种确定相似旋律的方法和装置,其中,确定相似旋律的方法包括:将待检测旋律输入到旋律调式拍号推断模型来推断所述待检测旋律的调式和拍号;根据推断出的调式和拍号将所述待检测旋律转换为规定格式的旋律序列;根据所述旋律序列从旋律库中确定与所述旋律序列匹配的旋律。根据本公开的确定旋律相似的方法和装置能够将新的旋律与已经存在的旋律序列进行匹配从而做到在发布歌曲前就避免风险。
-
公开(公告)号:CN113409747B
公开(公告)日:2023-08-29
申请号:CN202110593727.5
申请日:2021-05-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开公开一种歌曲生成方法、装置、电子设备及存储介质,包括:获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;将歌词文本和乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;将第一编码输出向量、第一参考输出向量以及第一声纹特征向量输入至歌曲生成模型中的解码网络中,生成第一歌曲,其中,第一声纹特征向量为歌曲生成模型中与目标演唱者身份信息对应的声纹特征向量,第一歌曲为具有目标演唱者身份信息对应的演唱者的声纹信息及目标歌曲风格的歌曲。采用本公开的歌曲生成方法,至少解决现有在获取不同类别的歌曲的过程中存在效率低的问题。
-
公开(公告)号:CN115641868A
公开(公告)日:2023-01-24
申请号:CN202211100895.7
申请日:2022-09-09
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L21/0272 , G10L25/30
Abstract: 本公开关于一种音频分离方法、装置、电子设备及计算机可读存储介质。音频分离方法包括:对待分离音频,基于音频分离模型的粗分网络,获得待分离音频的混合音频复数谱以及至少两个轨道的粗分音频复数谱;对至少两个轨道的粗分音频复数谱和混合音频复数谱,基于音频分离模型的残差补偿网络,获得至少两个轨道的复数谱残差;针对每个轨道,根据粗分音频复数谱和复数谱残差,确定音频复数谱;将至少两个轨道的音频复数谱分别转换为音频信号;其中,粗分网络和残差补偿网络中均包含二维窗自注意力网络,二维窗自注意力网络包括串行的多头自注意力层和二维窗自注意力层。根据本方案,能够全面捕获多任务音频分离所需的信息,提升音频分离性能。
-
公开(公告)号:CN115273828A
公开(公告)日:2022-11-01
申请号:CN202210762989.4
申请日:2022-06-30
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音意图识别模型的训练方法、装置及电子设备,涉及语音识别技术领域。本公开中,获取带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的利由第二语音样本及对应的第二文本样本训练得到的第一多模态提取网络。基于带有意图标签的第一语音样本及对应的第一文本样本,对语音意图识别模型进行训练,得到经训练的语音意图识别模型。语音意图识别模型中的第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数,语音意图识别模型中的意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。这样,可以降低训练样本获取成本,降低模型训练的实现难度。
-
公开(公告)号:CN115064173A
公开(公告)日:2022-09-16
申请号:CN202210891670.1
申请日:2022-07-27
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开涉及一种语音识别方法、装置、电子设备及计算机可读介质,属于人工智能技术领域。该方法包括:获取待识别的语音特征序列,将语音特征序列输入语音识别系统中;通过语音识别系统中的编码器得到语音特征序列对应的语义特征向量序列,其中,语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块中的神经网络参数的权重共享;通过语音识别系统中的解码器对语义特征向量序列进行解码处理,得到语音特征序列对应的文本序列。本公开通过将待识别的语音特征序列输入语音识别系统中,该语音识别系统的编码器中包含多组混合专家网络模块,不同组的混合专家网络模块权重共享,可以减少模型的参数量,节约系统资源。
-
公开(公告)号:CN114512147A
公开(公告)日:2022-05-17
申请号:CN202111571943.6
申请日:2021-12-21
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频处理方法、装置、电子设备及存储介质,包括:对音频进行人声检测,得到人声片段,人声片段的时长大于等于第一预设时长,对人声片段进行节拍检测,得到人声片段对应的多个小节,多个小节按照时间戳排序,对多个小节进行聚类,将多个小节分为多个第一聚类片段,多个第一聚类片段中的每个第一聚类片段包括至少一个小节,从多个第一聚类片段中确定第一目标聚类片段,将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。如此,可以通过设备确定出音频的副歌起始时间点,减少了人力成本和金钱成本。
-
公开(公告)号:CN114512133A
公开(公告)日:2022-05-17
申请号:CN202011159156.6
申请日:2020-10-26
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种发声对象识别方法、装置、服务器及存储介质。其中,该发声对象识别方法包括:从待识别发声对象的第一语音数据中提取第一语音向量,以及从目标发声对象的第二语音数据中提取第二语音向量;将第一语音向量和第二语音向量输入到声纹特征识别模型,利用声纹特征识别模型中隐藏层的激活函数分别对第一语音向量和第二语音向量进行声纹特征提取,得到待识别发声对象的第一声纹特征和目标发声对象的第二声纹特征;计算第一声纹特征与第二声纹特征之间的相似度;若相似度大于或等于相似度阈值,则确定待识别发声对象与目标发声对象相匹配。能够准确地确定出待识别发声对象与目标发声对象是否相匹配。
-
-
-
-
-
-
-
-
-