-
公开(公告)号:CN114512133A
公开(公告)日:2022-05-17
申请号:CN202011159156.6
申请日:2020-10-26
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种发声对象识别方法、装置、服务器及存储介质。其中,该发声对象识别方法包括:从待识别发声对象的第一语音数据中提取第一语音向量,以及从目标发声对象的第二语音数据中提取第二语音向量;将第一语音向量和第二语音向量输入到声纹特征识别模型,利用声纹特征识别模型中隐藏层的激活函数分别对第一语音向量和第二语音向量进行声纹特征提取,得到待识别发声对象的第一声纹特征和目标发声对象的第二声纹特征;计算第一声纹特征与第二声纹特征之间的相似度;若相似度大于或等于相似度阈值,则确定待识别发声对象与目标发声对象相匹配。能够准确地确定出待识别发声对象与目标发声对象是否相匹配。
-
公开(公告)号:CN110033756B
公开(公告)日:2021-03-16
申请号:CN201910299006.6
申请日:2019-04-15
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开是关于一种语种识别方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取待识别的音视频文件;对所述音视频文件进行特征提取,得到所述音视频文件的多个音频特征;将所述多个音频特征输入语种识别模型,由所述语种识别模型基于注意力机制,从所述多个音频特征中筛选出关键音频特征,基于所述关键音频特征进行语种识别,输出语种识别结果,所述语种识别结果用于指示所述音视频文件的语种。本公开基于注意力机制,从多个音频特征中筛选出少量的关键音频特征,使得语种识别模型将注意力集中在关键音频特征上,能够更加准确快速的识别出音视频文件的语种,提高了语种识别的准确率和效率。
-
公开(公告)号:CN110033756A
公开(公告)日:2019-07-19
申请号:CN201910299006.6
申请日:2019-04-15
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开是关于一种语种识别方法、装置、电子设备及存储介质,属于计算机技术领域。所述方法包括:获取待识别的音视频文件;对所述音视频文件进行特征提取,得到所述音视频文件的多个音频特征;将所述多个音频特征输入语种识别模型,由所述语种识别模型基于注意力机制,从所述多个音频特征中筛选出关键音频特征,基于所述关键音频特征进行语种识别,输出语种识别结果,所述语种识别结果用于指示所述音视频文件的语种。本公开基于注意力机制,从多个音频特征中筛选出少量的关键音频特征,使得语种识别模型将注意力集中在关键音频特征上,能够更加准确快速的识别出音视频文件的语种,提高了语种识别的准确率和效率。
-
公开(公告)号:CN113035202B
公开(公告)日:2023-02-28
申请号:CN202110122528.6
申请日:2021-01-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种身份识别方法和装置,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,从而减少人力成本。
-
公开(公告)号:CN115206305A
公开(公告)日:2022-10-18
申请号:CN202211128827.1
申请日:2022-09-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。
-
公开(公告)号:CN112185347A
公开(公告)日:2021-01-05
申请号:CN202011033457.4
申请日:2020-09-27
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语种识别方法、装置、服务器及存储介质,该方法包括:获取待检测音频信号中的声学特征;将声学特征输入预先训练的声纹特征提取网络模型中,得到预先训练的声纹特征提取网络模型中目标神经网络层输出的特征,作为待检测音频信号中的声纹特征;根据待检测音频信号中的声纹特征以及各个预设语种音频信号中的声纹特征,确定待检测音频信号与各个预设语种音频信号之间的对数似然比值;根据各个对数似然比值,确定待检测音频信号与各个预设语种音频信号之间的特征相似度;根据特征相似度,从各个预设语种音频信号对应的语种信息中,确定待检测音频信号的语种信息。采用本方法,有利于提高语种识别的准确度。
-
公开(公告)号:CN111147871A
公开(公告)日:2020-05-12
申请号:CN201911229100.0
申请日:2019-12-04
Applicant: 北京达佳互联信息技术有限公司
Inventor: 张大威
IPC: H04N21/2187 , H04N21/233 , H04N21/439 , G10L25/30 , G10L25/24
Abstract: 本公开关于一种直播间歌唱识别方法、装置及服务器、存储介质,涉及直播领域。首先通过经音乐声分类模型对声音特征向量序列进行分类,并得到分类结果;如果分类结果表征声音特征向量序列包括音乐声特征向量,则从直播流中提取出包括音乐声特征向量的音频流;然后提取出包括音乐声特征向量的音频流中的人声特征向量;最后经清唱声分类模型对人声特征向量进行分类,并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类,从而得到的分类结果更加精确,能够更准的确定当前的直播间的主播是否正在进行歌唱表演。
-
公开(公告)号:CN112735466B
公开(公告)日:2023-07-25
申请号:CN202011582010.2
申请日:2020-12-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。
-
公开(公告)号:CN116129881A
公开(公告)日:2023-05-16
申请号:CN202310003040.0
申请日:2023-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。
-
公开(公告)号:CN113744729A
公开(公告)日:2021-12-03
申请号:CN202111095442.5
申请日:2021-09-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供一种语音识别模型生成方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以得到更优的语音识别模型。该方法包括:获取语音样本数据;构建第一语音识别超网络,第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,搜索特征包括分支个数、网络层维度和通道选择维度;搜索特征包括分支个数、网络层维度和通道选择维度;基于语音样本和语音样本标签,对第一语音识别超网络执行训练操作,得到第二语音识别超网络;语音样本标签作为语音样本对应的期望识别值;对第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;对目标语音识别子网络进行重训练,得到语音识别模型。
-
-
-
-
-
-
-
-
-