困难气道的检测方法及其电子设备和存储介质

    公开(公告)号:CN113936663B

    公开(公告)日:2025-03-07

    申请号:CN202111466777.3

    申请日:2021-12-03

    Abstract: 本发明实施例提供一种困难气道的检测方法。该方法包括:对用户的语音音频进行声学特征提取和语音活性检测;将提取的声学特征进行平均池化处理,得到第一嵌入向量;将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型,得到表征困难气道的第二嵌入向量;将第一嵌入向量联合第二嵌入向量输入至支持向量机,以检测困难气道。本发明实施例还提供一种困难气道的检测系统。本发明实施例基于语音技术实现困难气道的检测。解决了传统方法存在的繁琐、专业要求高和不够准确的问题。说话人嵌入很好地表征了气道的物理结构。由于语音信号传输方便,用户只需使用边缘设备即可进行检测,大大方便了用户的检测。

    困难气道的检测方法及其电子设备和存储介质

    公开(公告)号:CN113936663A

    公开(公告)日:2022-01-14

    申请号:CN202111466777.3

    申请日:2021-12-03

    Abstract: 本发明实施例提供一种困难气道的检测方法。该方法包括:对用户的语音音频进行声学特征提取和语音活性检测;将提取的声学特征进行平均池化处理,得到第一嵌入向量;将活性检测后的发声帧输入至用于表征困难气道的说话人的深度说话人模型,得到表征困难气道的第二嵌入向量;将第一嵌入向量联合第二嵌入向量输入至支持向量机,以检测困难气道。本发明实施例还提供一种困难气道的检测系统。本发明实施例基于语音技术实现困难气道的检测。解决了传统方法存在的繁琐、专业要求高和不够准确的问题。说话人嵌入很好地表征了气道的物理结构。由于语音信号传输方便,用户只需使用边缘设备即可进行检测,大大方便了用户的检测。

    一种环境感知的可控背景去除和保留的语音合成系统

    公开(公告)号:CN119943028A

    公开(公告)日:2025-05-06

    申请号:CN202510121489.6

    申请日:2025-01-24

    Abstract: 本发明公开了一种环境感知的可控背景去除和保留的语音合成系统,涉及语音领域,本发明提出了一个能够根据带噪提示语音感知声学环境,从而进行可控背景去除和保留的语音合成系统,以文本、提示语音和任务相关的控制信号作为输入,包含时长预测器、声学模型和双重提示语音编码器,在训练策略上,基于流匹配算法,进一步提出了可控的掩码语音预测训练策略,通过提供带噪的提示语音实现可控的背景去除和保留。本发明提高了系统处理带噪、混响和干扰说话人的提示语音的鲁棒性和可控性,能够在生成语音时有效地控制提示语音中含有的背景的去除与保留,实现更高的生成语音质量和更相似的声学背景。

    一种语音模型压缩方法、电子设备及存储介质

    公开(公告)号:CN119905087A

    公开(公告)日:2025-04-29

    申请号:CN202510083506.1

    申请日:2025-01-17

    Inventor: 钱彦旻 顾天腾

    Abstract: 本发明公开了一种语音模型压缩方法、电子设备及存储介质。本发明专为具有编码器‑解码器架构的大规模序列到序列语音识别模型设计。该方法通过依次剪枝解码器和编码器,避免了繁重的反向传播计算。该方法能在无反向传播或重训练的情况下,将Whisper‑large模型的参数减少约60%,且对模型在各种数据集上的表现几乎没有影响。同时,该方法适用于多语言数据集,剪枝后模型在多语言能力上保持了良好的鲁棒性和泛化性。此创新极大降低了大规模模型部署的门槛,使其在资源受限的环境中更易应用。

    一种基于帧重采样和子带剪枝的轻量化语音增强方法

    公开(公告)号:CN119517059A

    公开(公告)日:2025-02-25

    申请号:CN202411649456.0

    申请日:2024-11-18

    Inventor: 钱彦旻 赵思怡

    Abstract: 本发明公开了一种基于帧重采样和子带剪枝的轻量化语音增强方法,涉及自动语音识别领域。本发明提出的层级帧重采样(Layer‑Wise Frame Resampling,LWS)与子带剪枝(Sub‑Band Pruning,SBP)方法,能够在提升语音增强模型效率的同时,确保在复杂噪声环境中的语音识别性能。本发明具备高度的实用性,可根据具体应用场景的需求进行灵活调整,尤其适合在工业界对实时推理延迟、计算资源有限的端侧设备和语音识别场景中部署。

    一种基于生成式算法的目标说话人活动检测系统

    公开(公告)号:CN119296545A

    公开(公告)日:2025-01-10

    申请号:CN202411205988.5

    申请日:2024-08-29

    Inventor: 钱彦旻 陈正阳

    Abstract: 本发明公开了一种基于生成式算法的目标说话人活动检测系统,涉及语音领域,本发明使用生成方法进行目标说话人检测,在序列到序列目标说话人语音活动检测Seq2Seq‑TSVAD系统中实现了基于流匹配Flow‑Matching的生成算法;在应用生成算法之前,将二进制标签序列映射到一个密集的隐空间。本发明基于生成式算法的系统性能超过了基于区分性算法的基线。

    一种基于语音离散化和声码器的目标说话人抽取系统

    公开(公告)号:CN117912469A

    公开(公告)日:2024-04-19

    申请号:CN202410130424.3

    申请日:2024-01-30

    Abstract: 本发明公开了一种基于语音离散化和声码器的目标说话人抽取系统,涉及语音识别技术领域,包括预训练语音离散模块、离散标记预测模块和语音生成模块,其中,所述预训练语音离散模块用于将语音数据离散化为离散标记序列,所述离散标记预测模块根据所述离散标记序列输出预测离散标记序列,所述语音生成模块根据所述预测离散标记序列输出目标说话人的干净语音。本发明使用离散标记序列的声码器生成的语音,在听感上更好,对人耳更加友好,同时不存在残留干扰。

Patent Agency Ranking