一种多个说话人的语音转折点检测方法及装置

    公开(公告)号:CN112951212B

    公开(公告)日:2022-08-26

    申请号:CN202110419474.X

    申请日:2021-04-19

    Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731B

    公开(公告)日:2024-01-05

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731A

    公开(公告)日:2021-11-30

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    利用音频判别模型对音频进行判别的判别设备及存储介质

    公开(公告)号:CN114400024B

    公开(公告)日:2024-09-03

    申请号:CN202210046402.X

    申请日:2022-01-14

    Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。

    利用音频判别模型对音频进行判别的判别设备及存储介质

    公开(公告)号:CN114400024A

    公开(公告)日:2022-04-26

    申请号:CN202210046402.X

    申请日:2022-01-14

    Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。

    一种多个说话人的语音转折点检测方法及装置

    公开(公告)号:CN112951212A

    公开(公告)日:2021-06-11

    申请号:CN202110419474.X

    申请日:2021-04-19

    Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

    用于音频事件检测的神经网络系统和方法

    公开(公告)号:CN116230016A

    公开(公告)日:2023-06-06

    申请号:CN202310005727.8

    申请日:2023-01-04

    Abstract: 本发明实施例公开了一种用于音频事件检测的神经网络系统和方法,所述系统包括,特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块,通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图;并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重;基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核;使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征;并对第一输出特征的序列数据进行处理得到第二输出特征;获得所述音频的强标签和弱标签。

    一种利用咳嗽声检测肺部疾病的方法和装置

    公开(公告)号:CN116189715A

    公开(公告)日:2023-05-30

    申请号:CN202211594426.5

    申请日:2022-12-13

    Abstract: 本发明涉及一种利用咳嗽声检测肺部疾病的方法,所述方法具体包括:去除原始咳嗽音频中非咳嗽音片段,得到咳嗽音频,以及该咳嗽音频中各单个咳嗽片段的起始和结束时间;依据各单个咳嗽片段的起始和结束时间,分别生成各单个咳嗽片段对应的对数梅尔普矩阵,并分别计算各单个咳嗽片段对应的位置编码矩阵;依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵,得到所述咳嗽音频的特征矩阵;将咳嗽音频的特征矩阵归一化后乘比例因子,将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置,包括:咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置,能够提高检测结果的准确度。

Patent Agency Ranking