-
公开(公告)号:CN107633078B
公开(公告)日:2019-02-22
申请号:CN201710874385.8
申请日:2017-09-25
Applicant: 北京达佳互联信息技术有限公司
Inventor: 张大威
IPC: G06F16/783 , G06F16/71 , G06F21/10
Abstract: 本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端,所述方法包括:根据输入的音频时域数据获得二维的音频频域数据;从所述音频频域数据中获取若干个能量极大值点;根据所述若干个能量极大值点,将所述音频频域数据转化为一维的特征序列;根据所述特征序列生成所述音频时域数据的音频指纹。本发明可以有效检测出同源音频,达到更好的音视频版权保护效果。
-
公开(公告)号:CN112735466B
公开(公告)日:2023-07-25
申请号:CN202011582010.2
申请日:2020-12-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。
-
公开(公告)号:CN116129881A
公开(公告)日:2023-05-16
申请号:CN202310003040.0
申请日:2023-01-03
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语音任务处理方法、装置、电子设备及存储介质,该方法包括获取预设语音任务对应的待处理语音信息;将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理,得到待处理语音信息对应的目标语音特征信息,任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上,从待处理语音信息中提取语音特征信息;基于目标语音特征信息执行预设语音任务,得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。
-
公开(公告)号:CN113744729A
公开(公告)日:2021-12-03
申请号:CN202111095442.5
申请日:2021-09-17
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供一种语音识别模型生成方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以得到更优的语音识别模型。该方法包括:获取语音样本数据;构建第一语音识别超网络,第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,搜索特征包括分支个数、网络层维度和通道选择维度;搜索特征包括分支个数、网络层维度和通道选择维度;基于语音样本和语音样本标签,对第一语音识别超网络执行训练操作,得到第二语音识别超网络;语音样本标签作为语音样本对应的期望识别值;对第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;对目标语音识别子网络进行重训练,得到语音识别模型。
-
公开(公告)号:CN111477250A
公开(公告)日:2020-07-31
申请号:CN202010266672.2
申请日:2020-04-07
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于音频场景识别方法、音频场景识别模型的训练方法、装置、电子设备以及存储介质。该音频场景识别方法包括:获取音频信号;提取音频信号的频谱;将音频信号的频谱切分为至少两个子频带;根据至少两个子频带,确定音频信号的音频场景识别结果。采用该音频场景识别方法,可以实现将不同声音场景的频带差异性应用到音频场景识别中,从而提高模型识别音频场景的准确率和效率。
-
公开(公告)号:CN115206305B
公开(公告)日:2023-01-20
申请号:CN202211128827.1
申请日:2022-09-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。
-
公开(公告)号:CN113035202A
公开(公告)日:2021-06-25
申请号:CN202110122528.6
申请日:2021-01-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种身份识别方法和装置,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,从而减少人力成本。
-
公开(公告)号:CN112735466A
公开(公告)日:2021-04-30
申请号:CN202011582010.2
申请日:2020-12-28
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。
-
公开(公告)号:CN107633078A
公开(公告)日:2018-01-26
申请号:CN201710874385.8
申请日:2017-09-25
Applicant: 北京达佳互联信息技术有限公司
Inventor: 张大威
Abstract: 本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端,所述方法包括:根据输入的音频时域数据获得二维的音频频域数据;从所述音频频域数据中获取若干个能量极大值点;根据所述若干个能量极大值点,将所述音频频域数据转化为一维的特征序列;根据所述特征序列生成所述音频时域数据的音频指纹。本发明可以有效检测出同源音频,达到更好的音视频版权保护效果。
-
-
-
-
-
-
-
-