一种基于自适应类边界间隔的说话人识别方法、系统及存储介质

    公开(公告)号:CN117877493B

    公开(公告)日:2025-01-24

    申请号:CN202311867976.4

    申请日:2023-12-29

    Inventor: 罗辉 赵昊洋

    Abstract: 本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质,涉及说话人识别技术领域,为解决现方法假设不同说话人之间不存在差异性,调整类边界间隔的方式是固定且一致的,导致无法区分差异性较小的说话人的问题。包括:步骤1、获取说话人音频数据集,将添加音频数据添加标签;步骤2、对音频数据进行预处理,对预处理的音频数据中提取FBank特征作为声学特征;步骤3、构建基于深度学习的说话人识别模型,将说话人音频样本分为正确分类和错误分类,以样本属于某个说话人的概率为先验信息,自适应地调整类边界间隔,构建损失函数对模型进行训练;步骤4、将待测说话人音频数据输入训练后的说话人识别模型,判断是否为同一个人的音频数据。

    一种基于自适应类边界间隔的说话人识别方法、系统及存储介质

    公开(公告)号:CN117877493A

    公开(公告)日:2024-04-12

    申请号:CN202311867976.4

    申请日:2023-12-29

    Inventor: 罗辉 赵昊洋

    Abstract: 本发明一种基于自适应类边界间隔的说话人识别方法、系统及存储介质,涉及说话人识别技术领域,为解决现方法假设不同说话人之间不存在差异性,调整类边界间隔的方式是固定且一致的,导致无法区分差异性较小的说话人的问题。包括:步骤1、获取说话人音频数据集,将添加音频数据添加标签;步骤2、对音频数据进行预处理,对预处理的音频数据中提取FBank特征作为声学特征;步骤3、构建基于深度学习的说话人识别模型,将说话人音频样本分为正确分类和错误分类,以样本属于某个说话人的概率为先验信息,自适应地调整类边界间隔,构建损失函数对模型进行训练;步骤4、将待测说话人音频数据输入训练后的说话人识别模型,判断是否为同一个人的音频数据。

Patent Agency Ranking