Patent search ap:("中国科学院声学研究所") AND inv:"张学帅" Page 1

1.

发明授权
一种多个说话人的语音转折点检测方法及装置有权

公开(公告)号：CN112951212B

公开(公告)日：2022-08-26

申请号：CN202110419474.X

申请日：2021-04-19

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 张学帅 , 颜永红

IPC: G10L15/04 , G10L15/10 , G10L15/16 , G10L25/03

Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置，方法包括：接收多个说话人的混合语音；切分混合语音，得到M个语音片段，M为正整数；提取每个语音片段的特征；将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M‑1个特征对；将M‑1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M‑1个相似度输出；若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度，提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

2.

发明授权
利用音频判别模型进行音频判别的方法和装置有权

公开(公告)号：CN113724731B

公开(公告)日：2024-01-05

申请号：CN202111007671.7

申请日：2021-08-30

Applicant: 中国科学院声学研究所

Inventor： 颜永红 , 张学帅 , 张鹏远

IPC: G10L25/24 , G10L25/30 , G10L25/66 , A61B5/00

Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率，该方法的一具体实施方式包括：首先，从采集的音频中获取多帧待判别咳嗽音频，并从各帧待判别咳嗽音频中提取特征向量。而后，利用至少一个第一时延神经网络，对多帧待判别咳嗽音频的特征向量进行信息提取，得到音频信息。之后，利用至少一个残差时延神经网络，从多个维度提取音频信息的多维度信息，并利用至少一个第二时延神经网络，从多维度信息获得固定长度的音频特征。最后，将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

3.

发明授权
一种基于变速模板的音频样例检索方法有权

公开(公告)号：CN111382302B

公开(公告)日：2023-08-11

申请号：CN201811619717.9

申请日：2018-12-28

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 李超 , 王佩 , 张学帅 , 邹学强 , 刘建 , 徐杰 , 胡琦

IPC: G06F16/683 , G06F16/632 , G06F16/61

Abstract: 本发明涉及一种基于变速模板的音频样例检索方法，该方法具体包括：针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段，获取各个短音频片段的二进制音频指纹序列值，查找预先建立的哈希表；查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值；计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject；如果D＜Reject，则认为短音频片段与模板音频相似；如果D＞Reject，则认为短音频片段存在错误，并提取该短音频片段。

4.

发明公开
利用音频判别模型进行音频判别的方法和装置有权

公开(公告)号：CN113724731A

公开(公告)日：2021-11-30

申请号：CN202111007671.7

申请日：2021-08-30

Applicant: 中国科学院声学研究所

Inventor： 颜永红 , 张学帅 , 张鹏远

IPC: G10L25/24 , G10L25/30 , G10L25/66 , A61B5/00

Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率，该方法的一具体实施方式包括：首先，从采集的音频中获取多帧待判别咳嗽音频，并从各帧待判别咳嗽音频中提取特征向量。而后，利用至少一个第一时延神经网络，对多帧待判别咳嗽音频的特征向量进行信息提取，得到音频信息。之后，利用至少一个残差时延神经网络，从多个维度提取音频信息的多维度信息，并利用至少一个第二时延神经网络，从多维度信息获得固定长度的音频特征。最后，将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

5.

发明授权
利用音频判别模型对音频进行判别的判别设备及存储介质有权

公开(公告)号：CN114400024B

公开(公告)日：2024-09-03

申请号：CN202210046402.X

申请日：2022-01-14

Applicant: 中国科学院声学研究所

Inventor： 颜永红 , 张学帅 , 张鹏远

IPC: G10L25/66 , G10L25/18 , G10L25/30 , G06F18/2415 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/08 , G16H50/20

Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质，判别设备包括：第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征；第一划分模块，配置为对目标梅尔谱特征进行划分，得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征；频域特征提取模块，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，得到第一频域特征和第二频域特征；时序特征提取模块，配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层，得到第一时序特征和第二时序特征；分类模块，配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。

6.

发明公开
利用音频判别模型对音频进行判别的判别设备及存储介质有权

公开(公告)号：CN114400024A

公开(公告)日：2022-04-26

申请号：CN202210046402.X

申请日：2022-01-14

Applicant: 中国科学院声学研究所

Inventor： 颜永红 , 张学帅 , 张鹏远

IPC: G10L25/66 , G10L25/18 , G10L25/30 , G06K9/62 , G06N3/04 , G06N3/08 , G16H50/20

Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质，判别设备包括：第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征；第一划分模块，配置为对目标梅尔谱特征进行划分，得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征；频域特征提取模块，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，得到第一频域特征和第二频域特征；时序特征提取模块，配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层，得到第一时序特征和第二时序特征；分类模块，配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。

7.

发明公开
一种多个说话人的语音转折点检测方法及装置有权

公开(公告)号：CN112951212A

公开(公告)日：2021-06-11

申请号：CN202110419474.X

申请日：2021-04-19

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 张学帅 , 颜永红

IPC: G10L15/04 , G10L15/10 , G10L15/16 , G10L25/03

Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置，方法包括：接收多个说话人的混合语音；切分混合语音，得到M个语音片段，M为正整数；提取每个语音片段的特征；将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M‑1个特征对；将M‑1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M‑1个相似度输出；若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度，提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

8.

发明授权
一种用于音频检索的模板自动清洗方法及系统有权

公开(公告)号：CN111354352B

公开(公告)日：2023-07-14

申请号：CN201811582260.9

申请日：2018-12-24

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 石光 , 胡琦 , 李超 , 张学帅 , 徐杰 , 邹学强 , 刘建

IPC: G10L15/20 , G10L15/06 , G10L15/14 , G10L25/12 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/45

Abstract: 本发明公开了一种用于音频检索的模板自动清洗方法及系统，所述方法包括：提取模板的语音信号的特征，形成特征序列；将语音特征序列输入预先训练好的深度神经网络，输出每一帧语音特征的后验概率；将后验概率转换为似然概率，然后进行Viterbi解码，输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点，通过加入多样的非语音数据，使得DNN能够学习到无效语音与输入特征的非线性映射关系；同时，利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。

9.

发明公开
用于音频事件检测的神经网络系统和方法审中-实审

公开(公告)号：CN116230016A

公开(公告)日：2023-06-06

申请号：CN202310005727.8

申请日：2023-01-04

Applicant: 中国科学院声学研究所

Inventor： 张学帅 , 肖胜昌 , 颜永红 , 张鹏远

IPC: G10L25/54 , G06F18/213 , G06F18/24 , G06N3/044 , G06N3/0464 , G06N3/08 , G10L25/30 , G10L25/24

Abstract: 本发明实施例公开了一种用于音频事件检测的神经网络系统和方法，所述系统包括，特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块，通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图；并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重；基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核；使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征；并对第一输出特征的序列数据进行处理得到第二输出特征；获得所述音频的强标签和弱标签。

10.

发明公开
一种利用咳嗽声检测肺部疾病的方法和装置审中-实审

公开(公告)号：CN116189715A

公开(公告)日：2023-05-30

申请号：CN202211594426.5

申请日：2022-12-13

Applicant: 中国科学院声学研究所

Inventor： 张学帅 , 申家坤 , 颜永红 , 张鹏远

IPC: G10L25/66 , G16H50/30 , G06N3/0442 , G06N3/08 , G10L25/03 , G10L25/18 , G10L25/27

Abstract: 本发明涉及一种利用咳嗽声检测肺部疾病的方法，所述方法具体包括：去除原始咳嗽音频中非咳嗽音片段，得到咳嗽音频，以及该咳嗽音频中各单个咳嗽片段的起始和结束时间；依据各单个咳嗽片段的起始和结束时间，分别生成各单个咳嗽片段对应的对数梅尔普矩阵，并分别计算各单个咳嗽片段对应的位置编码矩阵；依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵，得到所述咳嗽音频的特征矩阵；将咳嗽音频的特征矩阵归一化后乘比例因子，将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置，包括：咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置，能够提高检测结果的准确度。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification