Patent search ap:("中国科学院声学研究所" OR "国家计算机网络与信息安全管理中心") AND inv:"张学帅" Page 2

11.

发明公开
利用音频判别模型对音频进行判别的判别设备及存储介质有权

公开(公告)号：CN114400024A

公开(公告)日：2022-04-26

申请号：CN202210046402.X

申请日：2022-01-14

Applicant: 中国科学院声学研究所

Inventor： 颜永红 , 张学帅 , 张鹏远

IPC: G10L25/66 , G10L25/18 , G10L25/30 , G06K9/62 , G06N3/04 , G06N3/08 , G16H50/20

Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质，判别设备包括：第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征；第一划分模块，配置为对目标梅尔谱特征进行划分，得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征；频域特征提取模块，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，得到第一频域特征和第二频域特征；时序特征提取模块，配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层，得到第一时序特征和第二时序特征；分类模块，配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。

12.

发明公开
一种多个说话人的语音转折点检测方法及装置有权

公开(公告)号：CN112951212A

公开(公告)日：2021-06-11

申请号：CN202110419474.X

申请日：2021-04-19

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 张学帅 , 颜永红

IPC: G10L15/04 , G10L15/10 , G10L15/16 , G10L25/03

Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置，方法包括：接收多个说话人的混合语音；切分混合语音，得到M个语音片段，M为正整数；提取每个语音片段的特征；将每两个相邻的语音片段的特征进行拼接，得到与每两个相邻的语音片段对应的M‑1个特征对；将M‑1个特征对输入训练后的语音转折点检测网络中，得到与每两个相邻的语音片段对应的M‑1个相似度输出；若相似度输出小于预设相似度阈值，则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度，提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

13.

发明公开
用于音频事件检测的神经网络系统和方法审中-实审

公开(公告)号：CN116230016A

公开(公告)日：2023-06-06

申请号：CN202310005727.8

申请日：2023-01-04

Applicant: 中国科学院声学研究所

Inventor： 张学帅 , 肖胜昌 , 颜永红 , 张鹏远

IPC: G10L25/54 , G06F18/213 , G06F18/24 , G06N3/044 , G06N3/0464 , G06N3/08 , G10L25/30 , G10L25/24

Abstract: 本发明实施例公开了一种用于音频事件检测的神经网络系统和方法，所述系统包括，特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块，通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图；并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重；基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核；使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征；并对第一输出特征的序列数据进行处理得到第二输出特征；获得所述音频的强标签和弱标签。

14.

发明公开
一种利用咳嗽声检测肺部疾病的方法和装置审中-实审

公开(公告)号：CN116189715A

公开(公告)日：2023-05-30

申请号：CN202211594426.5

申请日：2022-12-13

Applicant: 中国科学院声学研究所

Inventor： 张学帅 , 申家坤 , 颜永红 , 张鹏远

IPC: G10L25/66 , G16H50/30 , G06N3/0442 , G06N3/08 , G10L25/03 , G10L25/18 , G10L25/27

Abstract: 本发明涉及一种利用咳嗽声检测肺部疾病的方法，所述方法具体包括：去除原始咳嗽音频中非咳嗽音片段，得到咳嗽音频，以及该咳嗽音频中各单个咳嗽片段的起始和结束时间；依据各单个咳嗽片段的起始和结束时间，分别生成各单个咳嗽片段对应的对数梅尔普矩阵，并分别计算各单个咳嗽片段对应的位置编码矩阵；依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵，得到所述咳嗽音频的特征矩阵；将咳嗽音频的特征矩阵归一化后乘比例因子，将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置，包括：咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置，能够提高检测结果的准确度。

15.

发明公开
一种音频检索方法及装置无效

公开(公告)号：CN113157967A

公开(公告)日：2021-07-23

申请号：CN202110420849.4

申请日：2021-04-19

Applicant: 中国科学院声学研究所

Inventor： 张鹏远 , 陈树丽 , 张学帅 , 颜永红

IPC: G06F16/68 , G06F16/61 , G06F16/63

Abstract: 本申请提供了一种音频检索方法及装置。该方法包括：根据待检索的音频信号的指纹序列，采用哈希索引在音频指纹库中获得相似指纹序列；然后，在频域维度分别将指纹序列和各个相似指纹序列划分为数量相同的多段指纹；比较各个相似指纹序列中各段指纹与指纹序列中各段指纹的差异性，从而确定音频信号是否被音频指纹库检索成功。该方案解决了音频信号存在背景音乐干扰时，音频信号被错误的检索成功的问题，提升音频信号被检出的准确率。

16.

发明公开
基于谐波冲激增强频谱特征的鼾声分类方法及系统审中-实审

公开(公告)号：CN117219128A

公开(公告)日：2023-12-12

申请号：CN202311244489.2

申请日：2023-09-26

Applicant: 中国科学院声学研究所

Inventor： 张学帅 , 胡澳林 , 颜永红 , 张鹏远

IPC: G10L25/66 , G10L25/18 , G10L21/02

Abstract: 本发明涉及音频信号处理与技术领域，具体涉及一种基于谐波冲激增强频谱特征的鼾声分类方法及系统。本发明方法包括：提取鼾声信号的梅尔频谱；将梅尔频谱分解为谐波频谱和冲激频谱；计算谐波频谱的频率权重和冲激频谱的时间权重，并分别进行加权得到谐波增强频谱和冲激增强频谱；将谐波增强频谱和冲激增强频谱以一定比例线性组合，得到谐波冲激增强频谱；将谐波冲激增强频谱特征输入训练好的卷积神经网络，得到鼾声分类结果。本发明采用谐波冲激分析和时频点自适应增强的方式，对OSA和良性鼾声频谱中的谐波和冲激结构进行增强，引导网络关注更加具有差异性和医学解释性的谐波和冲激部分，提升OSA和良性鼾声的分类准确率。

Patent Agency Ranking