-
公开(公告)号:CN111899760B
公开(公告)日:2024-05-07
申请号:CN202010693055.0
申请日:2020-07-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种音频事件的检测方法、装置、电子设备及存储介质,所述方法包括:获取待识别的音频数据对应的音频特征;根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征;对多个子频带特征分别进行特征提取,得到多个子频带目标特征;根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果。该方法通过采用深度学习网络学习具有频带级别差异的多个子频带特征,将频带级别的差异应用到基于深度学习的音频事件分类模型中,可以提升音频事件分类模型的分类性能,使得音频事件分类模型能够识别得到待识别的音频数据中所包含的多种音频事件,从而使音频事件检测更加全面且具有较高的准确度。
-
公开(公告)号:CN111696532B
公开(公告)日:2023-08-18
申请号:CN202010556372.8
申请日:2020-06-17
Applicant: 北京达佳互联信息技术有限公司
IPC: G10L15/06 , G10L15/22 , G10L21/0208 , G10L21/0216
Abstract: 本申请关于一种语音识别方法、装置、电子设备以及存储介质,属于语音识别领域。方法包括:获取原始语音信号;对原始语音信号进行降噪处理,得到第一语音信号;将原始语音信号和第一语音信号进行融合,得到目标语音信号;对目标语音信号进行语音识别,得到与目标语音信号对应的语音信息。通过本申请提供的技术方案,获取原始语音信号之后,服务器可以对原始语音信号进行降噪处理,将降噪处理后的第一语音信号和原始语音信号进行融合,可以通过原始语音信号来弥补第一语音信号中丢失的语音信息。由于所得到的目标语音信号的所携带的信息更加完整,因此,通过上述技术方案进行的语音识别,可以得到较好的语音识别结果。
-
公开(公告)号:CN113747233B
公开(公告)日:2023-03-24
申请号:CN202110975308.8
申请日:2021-08-24
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/439 , G06N3/08 , G06N3/04 , G06F16/68
Abstract: 本公开关于一种音乐替换方法、装置、电子设备及存储介质,涉及音频处理技术领域,可以提高音乐替换的效率。该方法包括:获取待处理视频中的音乐片段;在音乐片段不属于预设音乐库的情况下,将音乐片段输入到预设的音乐风格识别模型,进行音乐风格的识别,得到音乐片段的风格;从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐;采用目标音乐,对待处理视频中的音乐片段进行替换,得到包括目标音乐的视频。
-
公开(公告)号:CN113035202B
公开(公告)日:2023-02-28
申请号:CN202110122528.6
申请日:2021-01-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种身份识别方法和装置,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,从而减少人力成本。
-
公开(公告)号:CN115481634A
公开(公告)日:2022-12-16
申请号:CN202210999730.1
申请日:2022-08-19
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F40/295 , G06N3/08
Abstract: 本公开关于一种实体词的识别方法、装置、电子设备、介质及程序产品,该方法包括:将待识别文本输入标签确定模型,得到所述待识别文本中每个字符的标签,所述标签包括标记和编码,所述标记表征所述字符在实体词中的位置,具有相同编码的字符属于同一实体词;根据所述字符的标签对所述字符进行组合,得到目标实体词。本公开无需判断每个字符与其它所有字符的关系,可以直接根据字符的标签对字符进行组合,得到各种形式的实体词。
-
公开(公告)号:CN115206305A
公开(公告)日:2022-10-18
申请号:CN202211128827.1
申请日:2022-09-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。
-
公开(公告)号:CN114970651A
公开(公告)日:2022-08-30
申请号:CN202110217833.3
申请日:2021-02-26
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种和弦生成模型的训练方法、和弦生成方法、装置,和弦生成模型的训练方法,包括:获取样本序列集合;包括:样本旋律序列以及样本调性序列、样本和弦序列以及样本和弦功能序列;将样本序列集合输入待训练的神经网络模型;神经网络模型用于根据样本序列集合中的样本旋律序列、样本调性序列、样本和弦序列中以及样本和弦功能序列中的部分序列位,预测完整的和弦序列以及和弦功能序列,并输出预测和弦序列以及预测和弦功能序列;基于预测和弦序列与样本和弦序列,预测和弦功能序列与样本和弦功能序列,确定当前神经网络模型的损失值;若小于预设的损失阈值,将当前神经网络模型作为和弦生成模型。本公开可以提高得到的和弦的和谐程度。
-
公开(公告)号:CN114582305A
公开(公告)日:2022-06-03
申请号:CN202011380378.0
申请日:2020-11-30
Applicant: 北京达佳互联信息技术有限公司
IPC: G10H1/00 , G06F40/205 , G06F40/35 , G06N3/08
Abstract: 本公开公开了一种旋律生成方法及装置。该方法中获取歌词文本中的至少一个分句;对各分句进行情感分析,得到相应分句的情感信息;将各分句与相应分句的情感信息进行拼接后,输入已训练的基于自注意力机制的模型,得到各分句对应的旋律向量;其中,基于自注意力机制的模型用于依照上一输入数据获得的旋律向量,对当前输入数据进行处理,得到当前输入数据对应的旋律向量;基于各分句的旋律向量,生成歌词文本的旋律。该方法在存在歌词文本的条件下,通过对歌词文本进行文字情感分析,得到该歌词文本对应的情感信息使生成的旋律在情感上与歌词保持一致,提高了生成旋律的自然程度,以及生成旋律的质量。
-
公开(公告)号:CN113747233A
公开(公告)日:2021-12-03
申请号:CN202110975308.8
申请日:2021-08-24
Applicant: 北京达佳互联信息技术有限公司
IPC: H04N21/439 , G06N3/08 , G06N3/04 , G06F16/68
Abstract: 本公开关于一种音乐替换方法、装置、电子设备及存储介质,涉及音频处理技术领域,可以提高音乐替换的效率。该方法包括:获取待处理视频中的音乐片段;在音乐片段不属于预设音乐库的情况下,将音乐片段输入到预设的音乐风格识别模型,进行音乐风格的识别,得到音乐片段的风格;从预设音乐库中选取风格与音乐片段的风格匹配的目标音乐;采用目标音乐,对待处理视频中的音乐片段进行替换,得到包括目标音乐的视频。
-
公开(公告)号:CN113409747A
公开(公告)日:2021-09-17
申请号:CN202110593727.5
申请日:2021-05-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开公开一种歌曲生成方法、装置、电子设备及存储介质,包括:获取歌词文本和乐谱信息,获取目标演唱者身份信息,以及,获取与目标歌曲风格对应的第一参考输出向量;将歌词文本和乐谱信息输入至歌曲生成模型中的编码网络,生成第一编码输出向量;将第一编码输出向量、第一参考输出向量以及第一声纹特征向量输入至歌曲生成模型中的解码网络中,生成第一歌曲,其中,第一声纹特征向量为歌曲生成模型中与目标演唱者身份信息对应的声纹特征向量,第一歌曲为具有目标演唱者身份信息对应的演唱者的声纹信息及目标歌曲风格的歌曲。采用本公开的歌曲生成方法,至少解决现有在获取不同类别的歌曲的过程中存在效率低的问题。
-
-
-
-
-
-
-
-
-