一种多个说话人的语音转折点检测方法及装置

    公开(公告)号:CN112951212B

    公开(公告)日:2022-08-26

    申请号:CN202110419474.X

    申请日:2021-04-19

    Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731B

    公开(公告)日:2024-01-05

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731A

    公开(公告)日:2021-11-30

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    利用音频判别模型对音频进行判别的判别设备及存储介质

    公开(公告)号:CN114400024B

    公开(公告)日:2024-09-03

    申请号:CN202210046402.X

    申请日:2022-01-14

    Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。

Patent Agency Ranking