音频指纹提取方法、音视频检测方法、装置及终端

    公开(公告)号:CN107633078B

    公开(公告)日:2019-02-22

    申请号:CN201710874385.8

    申请日:2017-09-25

    Inventor: 张大威

    Abstract: 本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端,所述方法包括:根据输入的音频时域数据获得二维的音频频域数据;从所述音频频域数据中获取若干个能量极大值点;根据所述若干个能量极大值点,将所述音频频域数据转化为一维的特征序列;根据所述特征序列生成所述音频时域数据的音频指纹。本发明可以有效检测出同源音频,达到更好的音视频版权保护效果。

    一种音频检测方法及装置
    12.
    发明授权

    公开(公告)号:CN112735466B

    公开(公告)日:2023-07-25

    申请号:CN202011582010.2

    申请日:2020-12-28

    Abstract: 本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。

    语音识别模型生成方法、装置、设备以及存储介质

    公开(公告)号:CN113744729A

    公开(公告)日:2021-12-03

    申请号:CN202111095442.5

    申请日:2021-09-17

    Abstract: 本公开提供一种语音识别模型生成方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以得到更优的语音识别模型。该方法包括:获取语音样本数据;构建第一语音识别超网络,第一语音识别超网络包括多层网络结构,每层网络结构对应搜索特征取值的多个不同组合,搜索特征包括分支个数、网络层维度和通道选择维度;搜索特征包括分支个数、网络层维度和通道选择维度;基于语音样本和语音样本标签,对第一语音识别超网络执行训练操作,得到第二语音识别超网络;语音样本标签作为语音样本对应的期望识别值;对第二语音识别超网络进行网络搜索,以得到目标语音识别子网络;对目标语音识别子网络进行重训练,得到语音识别模型。

    语义文本的生成方法、装置、电子设备及存储介质

    公开(公告)号:CN115206305B

    公开(公告)日:2023-01-20

    申请号:CN202211128827.1

    申请日:2022-09-16

    Abstract: 本公开提供了一种语义文本的生成方法、装置、电子设备及存储介质,属于音频处理技术领域。该方法包括:获取音频信号的梅尔谱图;通过语义识别模型中的音频特征提取网络,基于时空注意力机制和通道注意力机制,对所述梅尔谱图进行特征提取,得到音频特征矩阵;通过所述语义识别模型中的文本生成网络,基于所述音频特征矩阵,生成语义文本。上述方案不仅基于时空注意力机制来提取音频信号的特征,还能够基于通道注意力机制来提取音频信号的特征,使得提取到的音频特征矩阵能够准确表示音频信号的特征,从而能够提高语义文本的准确率,进而更加准确表达音频信号的语义。

    一种身份识别方法和装置
    17.
    发明公开

    公开(公告)号:CN113035202A

    公开(公告)日:2021-06-25

    申请号:CN202110122528.6

    申请日:2021-01-28

    Abstract: 本公开关于一种身份识别方法和装置,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,从而减少人力成本。

    一种音频检测方法及装置
    18.
    发明公开

    公开(公告)号:CN112735466A

    公开(公告)日:2021-04-30

    申请号:CN202011582010.2

    申请日:2020-12-28

    Abstract: 本申请涉及计算机技术领域,公开了一种音频检测方法及装置,用以解决在检测时长较短或较长的声音事件时,检测准确率低的问题。该方法包括:对音频进行时频转换处理得到声谱图,对声谱图进行特征提取,确定各帧的初始语音特征,并对归属于同一帧的初始语音特征进行聚合处理,得到各帧的聚合语音特征;分别确定各个初始语音特征的第一上下文关联度,和各个聚合语音特征的第二上下文关联度;基于各个第一上下文关联度确定各帧包含的声音事件,以及基于各个第二上下文关联度对各帧包含的声音事件进行分类,并确定各个声音事件的起止时间。基于各个第一上下文关联度和各个第二上下文关联度,检测音频所包含的每类声音事件的起止时间,提高检测准确率。

    音频指纹提取方法、音视频检测方法、装置及终端

    公开(公告)号:CN107633078A

    公开(公告)日:2018-01-26

    申请号:CN201710874385.8

    申请日:2017-09-25

    Inventor: 张大威

    Abstract: 本发明提供了一种音频指纹提取方法和装置、音视频检测方法和装置及终端,所述方法包括:根据输入的音频时域数据获得二维的音频频域数据;从所述音频频域数据中获取若干个能量极大值点;根据所述若干个能量极大值点,将所述音频频域数据转化为一维的特征序列;根据所述特征序列生成所述音频时域数据的音频指纹。本发明可以有效检测出同源音频,达到更好的音视频版权保护效果。

Patent Agency Ranking