-
公开(公告)号:CN111382302B
公开(公告)日:2023-08-11
申请号:CN201811619717.9
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/632 , G06F16/61
Abstract: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN111354352B
公开(公告)日:2023-07-14
申请号:CN201811582260.9
申请日:2018-12-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。
-
公开(公告)号:CN111354352A
公开(公告)日:2020-06-30
申请号:CN201811582260.9
申请日:2018-12-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。
-
公开(公告)号:CN111382303B
公开(公告)日:2023-11-28
申请号:CN201811619718.3
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/61
Abstract: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
公开(公告)号:CN111382303A
公开(公告)日:2020-07-07
申请号:CN201811619718.3
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/61
Abstract: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
公开(公告)号:CN111382302A
公开(公告)日:2020-07-07
申请号:CN201811619717.9
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/632 , G06F16/61
Abstract: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN112951212B
公开(公告)日:2022-08-26
申请号:CN202110419474.X
申请日:2021-04-19
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。
-
公开(公告)号:CN113724731B
公开(公告)日:2024-01-05
申请号:CN202111007671.7
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。
-
公开(公告)号:CN113724731A
公开(公告)日:2021-11-30
申请号:CN202111007671.7
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。
-
公开(公告)号:CN114400024B
公开(公告)日:2024-09-03
申请号:CN202210046402.X
申请日:2022-01-14
Applicant: 中国科学院声学研究所
IPC: G10L25/66 , G10L25/18 , G10L25/30 , G06F18/2415 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/08 , G16H50/20
Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。
-
-
-
-
-
-
-
-
-